論文の概要: Playing for 3D Human Recovery
- arxiv url: http://arxiv.org/abs/2110.07588v1
- Date: Thu, 14 Oct 2021 17:49:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 15:52:16.915559
- Title: Playing for 3D Human Recovery
- Title(参考訳): 3Dヒューマンリカバリをめざして
- Authors: Zhongang Cai, Mingyuan Zhang, Jiawei Ren, Chen Wei, Daxuan Ren,
Jiatong Li, Zhengyu Lin, Haiyu Zhao, Shuai Yi, Lei Yang, Chen Change Loy,
Ziwei Liu
- Abstract要約: そこで本研究では,ビデオゲームをプレイすることで,人間の大規模配列と3次元地上の真理を収集する。
具体的には,GTA-Vゲームエンジンで生成した大規模かつ高多様性な3次元人的データセットであるGTA-Humanにコントリビュートする。
テーマ、アクション、シナリオの豊富なセットでは、GTA-Humanは両方の効果的なトレーニングソースとして機能する。
- 参考スコア(独自算出の注目度): 74.01259933358331
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image- and video-based 3D human recovery (i.e. pose and shape estimation)
have achieved substantial progress. However, due to the prohibitive cost of
motion capture, existing datasets are often limited in scale and diversity,
which hinders the further development of more powerful models. In this work, we
obtain massive human sequences as well as their 3D ground truths by playing
video games. Specifically, we contribute, GTA-Human, a mega-scale and
highly-diverse 3D human dataset generated with the GTA-V game engine. With a
rich set of subjects, actions, and scenarios, GTA-Human serves as both an
effective training source. Notably, the "unreasonable effectiveness of data"
phenomenon is validated in 3D human recovery using our game-playing data. A
simple frame-based baseline trained on GTA-Human already outperforms more
sophisticated methods by a large margin; for video-based methods, GTA-Human
demonstrates superiority over even the in-domain training set. We extend our
study to larger models to observe the same consistent improvements, and the
study on supervision signals suggests the rich collection of SMPL annotations
is key. Furthermore, equipped with the diverse annotations in GTA-Human, we
systematically investigate the performance of various methods under a wide
spectrum of real-world variations, e.g. camera angles, poses, and occlusions.
We hope our work could pave way for scaling up 3D human recovery to the real
world.
- Abstract(参考訳): 画像と映像に基づく3次元人間の回復(ポーズと形状の推定)は、大きな進歩を遂げた。
しかし、モーションキャプチャーの禁止コストのため、既存のデータセットはスケールや多様性に制限されることが多く、より強力なモデルの開発を妨げている。
そこで本研究では,ビデオゲームをプレイすることで,膨大な人間のシーケンスと3Dの地上真実を得る。
具体的には,GTA-Vゲームエンジンで生成した大規模かつ高多様性な3次元人的データセットであるGTA-Humanに貢献する。
テーマ、アクション、シナリオの豊富なセットでは、GTA-Humanは両方の効果的なトレーニングソースとして機能する。
特に「データの不合理な有効性」現象は,ゲームプレイデータを用いて3次元人間の回復において検証される。
GTA-Humanでトレーニングされた単純なフレームベースのベースラインは、ビデオベースの手法では、ドメイン内のトレーニングセットよりも優れていることを示す。
我々は、同じ一貫した改善を観察するために、より大規模なモデルに研究を拡張し、監視信号の研究は、SMPLアノテーションの豊富な収集が重要であることを示唆している。
さらに,GTA-Humanの多彩なアノテーションを用いて,カメラアングル,ポーズ,オクルージョンなど,現実世界のさまざまなバリエーションの下で様々な手法の性能を体系的に検討する。
私たちは、人間の3Dリカバリを現実世界に拡大するための道を開いたいと考えています。
関連論文リスト
- MVHumanNet: A Large-scale Dataset of Multi-view Daily Dressing Human
Captures [44.172804112944625]
MVHumanNetは4,500人の身元からなる多視点人間の行動系列からなるデータセットである。
我々のデータセットには、人のマスク、カメラパラメータ、2Dおよび3Dキーポイント、SMPL/SMPLXパラメータ、および対応するテキスト記述を含む、9000の日次服、6万のモーションシーケンス、645万の豊富なアノテーションが含まれています。
論文 参考訳(メタデータ) (2023-12-05T18:50:12Z) - Get3DHuman: Lifting StyleGAN-Human into a 3D Generative Model using
Pixel-aligned Reconstruction Priors [56.192682114114724]
Get3DHumanは、生成された結果のリアリズムと多様性を大幅に向上させる、新しい3Dヒューマンフレームワークである。
我々のキーとなる観察は、この3Dジェネレータは、人間の2Dジェネレータと3Dコンストラクタを通して学んだ、人間関係の先行技術から利益を得ることができるということだ。
論文 参考訳(メタデータ) (2023-02-02T15:37:46Z) - FLEX: Full-Body Grasping Without Full-Body Grasps [24.10724524386518]
我々は,日常の物体を把握し,人間の手と全身を仮想的に生成するタスクに対処する。
既存の方法では、オブジェクトと対話する人間の3Dデータセットを収集し、このデータに基づいてトレーニングすることで、この問題に対処する。
フルボディのポーズとハンドグルーピングの両方の存在を活用し、3次元幾何学的制約を用いて構成し、フルボディのグルーピングを得る。
論文 参考訳(メタデータ) (2022-11-21T23:12:54Z) - Decanus to Legatus: Synthetic training for 2D-3D human pose lifting [26.108023246654646]
10個の手作り3Dポーズ(Decanus)に基づく3Dポーズ分布から無限個の合成人間のポーズ(Legatus)を生成するアルゴリズムを提案する。
この結果から,特定データセットの実際のデータを用いた手法に匹敵する3次元ポーズ推定性能を,ゼロショット設定で実現し,フレームワークの可能性を示した。
論文 参考訳(メタデータ) (2022-10-05T13:10:19Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z) - 3DCrowdNet: 2D Human Pose-Guided3D Crowd Human Pose and Shape Estimation
in the Wild [61.92656990496212]
3DCrowdNetは、2D人間のポーズガイド3D群衆ポーズと形状推定システムです。
我々の3DCrowdNetは、これまでのクラウドシーンの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-15T08:21:28Z) - S3: Neural Shape, Skeleton, and Skinning Fields for 3D Human Modeling [103.65625425020129]
歩行者の形状、ポーズ、皮膚の重みを、データから直接学習する神経暗黙関数として表現します。
各種データセットに対するアプローチの有効性を実証し,既存の最先端手法よりも再現性が優れていることを示す。
論文 参考訳(メタデータ) (2021-01-17T02:16:56Z) - Benchmarking End-to-End Behavioural Cloning on Video Games [5.863352129133669]
我々は,2010年以降の6ゲームを含む12のビデオゲームにおける行動クローンの一般適用性について検討した。
以上の結果から,これらのエージェントは生演奏では人間と一致しないが,基本力学やルールを学習できることがわかった。
また、データの質や、人間からのデータの記録が、人間の反射によって、状態-作用ミスマッチの対象になっていることを実証する。
論文 参考訳(メタデータ) (2020-04-02T13:31:51Z) - Chained Representation Cycling: Learning to Estimate 3D Human Pose and
Shape by Cycling Between Representations [73.11883464562895]
本稿では,教師なし,あるいは教師なしの学習を容易にする新しいアーキテクチャを提案する。
本研究では,非ペア画像と無注釈画像から3次元人物のポーズと形状を学習することにより,その手法を実証する。
人間をモデル化するための結果を示す一方で、私たちの定式化は一般的であり、他の視覚問題にも適用できる。
論文 参考訳(メタデータ) (2020-01-06T14:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。