論文の概要: Playing for 3D Human Recovery
- arxiv url: http://arxiv.org/abs/2110.07588v3
- Date: Sun, 8 Sep 2024 16:20:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 00:23:12.378536
- Title: Playing for 3D Human Recovery
- Title(参考訳): 3Dヒューマンリカバリをめざして
- Authors: Zhongang Cai, Mingyuan Zhang, Jiawei Ren, Chen Wei, Daxuan Ren, Zhengyu Lin, Haiyu Zhao, Lei Yang, Chen Change Loy, Ziwei Liu,
- Abstract要約: 本研究では,自動注釈付けされた3Dグラウンド真理でビデオゲームをプレイすることで,膨大な人間のシーケンスを得る。
具体的には,GTA-Vゲームエンジンで生成された大規模3次元人文データセットであるGTA-Humanをコントリビュートする。
GTA-Humanで訓練された単純なフレームベースのベースラインは、より高度な手法よりも大きなマージンで優れている。
- 参考スコア(独自算出の注目度): 88.91567909861442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image- and video-based 3D human recovery (i.e., pose and shape estimation) have achieved substantial progress. However, due to the prohibitive cost of motion capture, existing datasets are often limited in scale and diversity. In this work, we obtain massive human sequences by playing the video game with automatically annotated 3D ground truths. Specifically, we contribute GTA-Human, a large-scale 3D human dataset generated with the GTA-V game engine, featuring a highly diverse set of subjects, actions, and scenarios. More importantly, we study the use of game-playing data and obtain five major insights. First, game-playing data is surprisingly effective. A simple frame-based baseline trained on GTA-Human outperforms more sophisticated methods by a large margin. For video-based methods, GTA-Human is even on par with the in-domain training set. Second, we discover that synthetic data provides critical complements to the real data that is typically collected indoor. Our investigation into domain gap provides explanations for our data mixture strategies that are simple yet useful. Third, the scale of the dataset matters. The performance boost is closely related to the additional data available. A systematic study reveals the model sensitivity to data density from multiple key aspects. Fourth, the effectiveness of GTA-Human is also attributed to the rich collection of strong supervision labels (SMPL parameters), which are otherwise expensive to acquire in real datasets. Fifth, the benefits of synthetic data extend to larger models such as deeper convolutional neural networks (CNNs) and Transformers, for which a significant impact is also observed. We hope our work could pave the way for scaling up 3D human recovery to the real world. Homepage: https://caizhongang.github.io/projects/GTA-Human/
- Abstract(参考訳): 画像と映像に基づく3次元人間の回復(ポーズと形状の推定)は大きな進歩を遂げた。
しかし、モーションキャプチャーの禁止コストのため、既存のデータセットはスケールと多様性に制限されることが多い。
本研究では,自動注釈付けされた3Dグラウンド真理でビデオゲームをプレイすることで,膨大な人間のシーケンスを得る。
具体的には、GTA-Vゲームエンジンで生成された大規模3次元人間のデータセットであるGTA-Humanに、非常に多様な主題、アクション、シナリオをコントリビュートする。
さらに,ゲームプレイデータの利用について検討し,5つの重要な知見を得た。
まず、ゲームプレイのデータは驚くほど効果的です。
GTA-Humanで訓練された単純なフレームベースのベースラインは、より高度な手法よりも大きなマージンで優れている。
ビデオベースの手法では、GTA-Humanはドメイン内のトレーニングセットと同等である。
第二に、一般的に屋内で収集される実際のデータに対して、合成データが重要な補完となることを発見した。
ドメインギャップに関する我々の調査は、単純で有用なデータ混合戦略の説明を提供する。
第三に、データセットの規模は重要です。
パフォーマンス向上は、利用可能な追加データと密接に関連している。
系統的な研究により、複数の重要な側面からデータ密度に対するモデル感度が明らかにされる。
第4に、GTA-Humanの有効性は、強力な監視ラベル(SMPLパラメータ)の豊富なコレクションによるもので、そうでなければ実際のデータセットを取得するのに高価である。
第5に、合成データの利点は、より深い畳み込みニューラルネットワーク(CNN)やトランスフォーマーのようなより大きなモデルにまで拡張され、大きな影響が観測される。
われわれの研究が、人間の3D回復を現実世界に拡大する道を開くことを願っている。
ホームページ:https://caizhongang.github.io/ projects/GTA-Human/
関連論文リスト
- FAMOUS: High-Fidelity Monocular 3D Human Digitization Using View Synthesis [51.193297565630886]
テクスチャを正確に推測することの難しさは、特に正面視画像の人物の背中のような不明瞭な領域に残る。
このテクスチャ予測の制限は、大規模で多様な3Dデータセットの不足に起因する。
本稿では,3次元デジタル化におけるテクスチャと形状予測の両立を図るために,広範囲な2次元ファッションデータセットを活用することを提案する。
論文 参考訳(メタデータ) (2024-10-13T01:25:05Z) - MVHumanNet: A Large-scale Dataset of Multi-view Daily Dressing Human
Captures [44.172804112944625]
MVHumanNetは4,500人の身元からなる多視点人間の行動系列からなるデータセットである。
我々のデータセットには、人のマスク、カメラパラメータ、2Dおよび3Dキーポイント、SMPL/SMPLXパラメータ、および対応するテキスト記述を含む、9000の日次服、6万のモーションシーケンス、645万の豊富なアノテーションが含まれています。
論文 参考訳(メタデータ) (2023-12-05T18:50:12Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike
Animated Motion [52.11972919802401]
合成データのみに基づいてトレーニングされたニューラルネットワークは、実際の画像から3次元人間のポーズと形状推定の問題に対して最先端の精度が得られることを示す。
以前の合成データセットは小さく、非現実的で、現実的な衣服が欠けていた。
論文 参考訳(メタデータ) (2023-06-29T13:35:16Z) - 3D Segmentation of Humans in Point Clouds with Synthetic Data [21.518379214837278]
本稿では,3次元人間の意味的セグメンテーション,インスタンスセグメンテーション,複数人体部分セグメンテーションの課題を提案する。
実際の3Dシーンと相互作用する合成人間のトレーニングデータを生成するためのフレームワークを提案する。
また,新しいトランスフォーマーモデルであるHuman3Dを提案する。
論文 参考訳(メタデータ) (2022-12-01T18:59:21Z) - Hands-Up: Leveraging Synthetic Data for Hands-On-Wheel Detection [0.38233569758620045]
この研究は、ドライバモニタリングシステムのトレーニングに合成フォトリアリスティックインキャビンデータを使用することを実証する。
プラットフォームでエラー解析を行い、欠落したエッジケースを生成することで、パフォーマンスが向上することを示す。
これは、人間中心の合成データが現実世界にうまく一般化する能力を示している。
論文 参考訳(メタデータ) (2022-05-31T23:34:12Z) - S3: Neural Shape, Skeleton, and Skinning Fields for 3D Human Modeling [103.65625425020129]
歩行者の形状、ポーズ、皮膚の重みを、データから直接学習する神経暗黙関数として表現します。
各種データセットに対するアプローチの有効性を実証し,既存の最先端手法よりも再現性が優れていることを示す。
論文 参考訳(メタデータ) (2021-01-17T02:16:56Z) - Rel3D: A Minimally Contrastive Benchmark for Grounding Spatial Relations
in 3D [71.11034329713058]
既存のデータセットには、大規模で高品質な3D地上真実情報がない。
Rel3Dは、空間関係を3Dでグラウンド化するための、最初の大規模で人間による注釈付きデータセットである。
我々は、データセットバイアスを減らすための新しいクラウドソーシング手法である、最小限のコントラストデータ収集を提案する。
論文 参考訳(メタデータ) (2020-12-03T01:51:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。