Fugu-MT 論文翻訳(概要): Playing for 3D Human Recovery

論文の概要: Playing for 3D Human Recovery

arxiv url: http://arxiv.org/abs/2110.07588v1
Date: Thu, 14 Oct 2021 17:49:42 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-15 15:52:16.915559
Title: Playing for 3D Human Recovery
Title（参考訳）: 3Dヒューマンリカバリをめざして
Authors: Zhongang Cai, Mingyuan Zhang, Jiawei Ren, Chen Wei, Daxuan Ren, Jiatong Li, Zhengyu Lin, Haiyu Zhao, Shuai Yi, Lei Yang, Chen Change Loy, Ziwei Liu
Abstract要約: そこで本研究では,ビデオゲームをプレイすることで,人間の大規模配列と3次元地上の真理を収集する。具体的には,GTA-Vゲームエンジンで生成した大規模かつ高多様性な3次元人的データセットであるGTA-Humanにコントリビュートする。テーマ、アクション、シナリオの豊富なセットでは、GTA-Humanは両方の効果的なトレーニングソースとして機能する。
参考スコア（独自算出の注目度）: 74.01259933358331
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image- and video-based 3D human recovery (i.e. pose and shape estimation) have achieved substantial progress. However, due to the prohibitive cost of motion capture, existing datasets are often limited in scale and diversity, which hinders the further development of more powerful models. In this work, we obtain massive human sequences as well as their 3D ground truths by playing video games. Specifically, we contribute, GTA-Human, a mega-scale and highly-diverse 3D human dataset generated with the GTA-V game engine. With a rich set of subjects, actions, and scenarios, GTA-Human serves as both an effective training source. Notably, the "unreasonable effectiveness of data" phenomenon is validated in 3D human recovery using our game-playing data. A simple frame-based baseline trained on GTA-Human already outperforms more sophisticated methods by a large margin; for video-based methods, GTA-Human demonstrates superiority over even the in-domain training set. We extend our study to larger models to observe the same consistent improvements, and the study on supervision signals suggests the rich collection of SMPL annotations is key. Furthermore, equipped with the diverse annotations in GTA-Human, we systematically investigate the performance of various methods under a wide spectrum of real-world variations, e.g. camera angles, poses, and occlusions. We hope our work could pave way for scaling up 3D human recovery to the real world.
Abstract（参考訳）: 画像と映像に基づく3次元人間の回復(ポーズと形状の推定)は、大きな進歩を遂げた。しかし、モーションキャプチャーの禁止コストのため、既存のデータセットはスケールや多様性に制限されることが多く、より強力なモデルの開発を妨げている。そこで本研究では,ビデオゲームをプレイすることで,膨大な人間のシーケンスと3Dの地上真実を得る。具体的には,GTA-Vゲームエンジンで生成した大規模かつ高多様性な3次元人的データセットであるGTA-Humanに貢献する。テーマ、アクション、シナリオの豊富なセットでは、GTA-Humanは両方の効果的なトレーニングソースとして機能する。特に「データの不合理な有効性」現象は,ゲームプレイデータを用いて3次元人間の回復において検証される。 GTA-Humanでトレーニングされた単純なフレームベースのベースラインは、ビデオベースの手法では、ドメイン内のトレーニングセットよりも優れていることを示す。我々は、同じ一貫した改善を観察するために、より大規模なモデルに研究を拡張し、監視信号の研究は、SMPLアノテーションの豊富な収集が重要であることを示唆している。さらに,GTA-Humanの多彩なアノテーションを用いて,カメラアングル,ポーズ,オクルージョンなど,現実世界のさまざまなバリエーションの下で様々な手法の性能を体系的に検討する。私たちは、人間の3Dリカバリを現実世界に拡大するための道を開いたいと考えています。

関連論文リスト

MVHumanNet++: A Large-scale Dataset of Multi-view Daily Dressing Human Captures with Richer Annotations for 3D Human Digitization [36.46025784260418]
MVHumanNet++は4,500人の人物の多視点的行動系列からなるデータセットである。私たちのデータセットには、9000の日用品、6万のモーションシーケンスと6億5500万のフレームが含まれています。
論文参考訳（メタデータ） (2025-05-03T15:02:34Z)
FAMOUS: High-Fidelity Monocular 3D Human Digitization Using View Synthesis [51.193297565630886]
テクスチャを正確に推測することの難しさは、特に正面視画像の人物の背中のような不明瞭な領域に残る。このテクスチャ予測の制限は、大規模で多様な3Dデータセットの不足に起因する。本稿では,3次元デジタル化におけるテクスチャと形状予測の両立を図るために,広範囲な2次元ファッションデータセットを活用することを提案する。
論文参考訳（メタデータ） (2024-10-13T01:25:05Z)
MVHumanNet: A Large-scale Dataset of Multi-view Daily Dressing Human Captures [44.172804112944625]
MVHumanNetは4,500人の身元からなる多視点人間の行動系列からなるデータセットである。我々のデータセットには、人のマスク、カメラパラメータ、2Dおよび3Dキーポイント、SMPL/SMPLXパラメータ、および対応するテキスト記述を含む、9000の日次服、6万のモーションシーケンス、645万の豊富なアノテーションが含まれています。
論文参考訳（メタデータ） (2023-12-05T18:50:12Z)
Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文参考訳（メタデータ） (2023-11-10T18:38:14Z)
BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated Motion [52.11972919802401]
合成データのみに基づいてトレーニングされたニューラルネットワークは、実際の画像から3次元人間のポーズと形状推定の問題に対して最先端の精度が得られることを示す。以前の合成データセットは小さく、非現実的で、現実的な衣服が欠けていた。
論文参考訳（メタデータ） (2023-06-29T13:35:16Z)
3D Segmentation of Humans in Point Clouds with Synthetic Data [21.518379214837278]
本稿では,3次元人間の意味的セグメンテーション,インスタンスセグメンテーション,複数人体部分セグメンテーションの課題を提案する。実際の3Dシーンと相互作用する合成人間のトレーニングデータを生成するためのフレームワークを提案する。また,新しいトランスフォーマーモデルであるHuman3Dを提案する。
論文参考訳（メタデータ） (2022-12-01T18:59:21Z)
Hands-Up: Leveraging Synthetic Data for Hands-On-Wheel Detection [0.38233569758620045]
この研究は、ドライバモニタリングシステムのトレーニングに合成フォトリアリスティックインキャビンデータを使用することを実証する。プラットフォームでエラー解析を行い、欠落したエッジケースを生成することで、パフォーマンスが向上することを示す。これは、人間中心の合成データが現実世界にうまく一般化する能力を示している。
論文参考訳（メタデータ） (2022-05-31T23:34:12Z)
S3: Neural Shape, Skeleton, and Skinning Fields for 3D Human Modeling [103.65625425020129]
歩行者の形状、ポーズ、皮膚の重みを、データから直接学習する神経暗黙関数として表現します。各種データセットに対するアプローチの有効性を実証し,既存の最先端手法よりも再現性が優れていることを示す。
論文参考訳（メタデータ） (2021-01-17T02:16:56Z)
Rel3D: A Minimally Contrastive Benchmark for Grounding Spatial Relations in 3D [71.11034329713058]
既存のデータセットには、大規模で高品質な3D地上真実情報がない。 Rel3Dは、空間関係を3Dでグラウンド化するための、最初の大規模で人間による注釈付きデータセットである。我々は、データセットバイアスを減らすための新しいクラウドソーシング手法である、最小限のコントラストデータ収集を提案する。
論文参考訳（メタデータ） (2020-12-03T01:51:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。