論文の概要: Motion-X++: A Large-Scale Multimodal 3D Whole-body Human Motion Dataset
- arxiv url: http://arxiv.org/abs/2501.05098v1
- Date: Thu, 09 Jan 2025 09:37:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:59:11.066540
- Title: Motion-X++: A Large-Scale Multimodal 3D Whole-body Human Motion Dataset
- Title(参考訳): Motion-X++: 大規模マルチモーダル3D人体モーションデータセット
- Authors: Yuhong Zhang, Jing Lin, Ailing Zeng, Guanlin Wu, Shunlin Lu, Yurong Fu, Yuanhao Cai, Ruimao Zhang, Haoqian Wang, Lei Zhang,
- Abstract要約: Motion-X++は大規模なマルチモーダル3D表現型人体モーションデータセットである。
Motion-X++は、巨大なシーンから120.5Kのモーションシーケンスをカバーする19.5Mの全身のポーズアノテーションを提供する。
- 参考スコア(独自算出の注目度): 35.47253826828815
- License:
- Abstract: In this paper, we introduce Motion-X++, a large-scale multimodal 3D expressive whole-body human motion dataset. Existing motion datasets predominantly capture body-only poses, lacking facial expressions, hand gestures, and fine-grained pose descriptions, and are typically limited to lab settings with manually labeled text descriptions, thereby restricting their scalability. To address this issue, we develop a scalable annotation pipeline that can automatically capture 3D whole-body human motion and comprehensive textural labels from RGB videos and build the Motion-X dataset comprising 81.1K text-motion pairs. Furthermore, we extend Motion-X into Motion-X++ by improving the annotation pipeline, introducing more data modalities, and scaling up the data quantities. Motion-X++ provides 19.5M 3D whole-body pose annotations covering 120.5K motion sequences from massive scenes, 80.8K RGB videos, 45.3K audios, 19.5M frame-level whole-body pose descriptions, and 120.5K sequence-level semantic labels. Comprehensive experiments validate the accuracy of our annotation pipeline and highlight Motion-X++'s significant benefits for generating expressive, precise, and natural motion with paired multimodal labels supporting several downstream tasks, including text-driven whole-body motion generation,audio-driven motion generation, 3D whole-body human mesh recovery, and 2D whole-body keypoints estimation, etc.
- Abstract(参考訳): 本稿では,大規模なマルチモーダル3D表現型人体モーションデータセットであるMotion-X++を紹介する。
既存の動作データセットは、主に身体のみのポーズをキャプチャし、表情、手のジェスチャー、きめ細かいポーズ記述を欠いている。
この問題に対処するために,RGBビデオから3次元の人体の動きと包括的テクスチャラベルを自動的にキャプチャし,81.1KのテキストモーションペアからなるMotion-Xデータセットを構築する,スケーラブルなアノテーションパイプラインを開発した。
さらに、アノテーションパイプラインを改善し、より多くのデータモダリティを導入し、データ量をスケールアップすることで、Motion-XをMotion-X++に拡張します。
Motion-X++は、巨大なシーンからの120.5Kのモーションシーケンス、80.8KのRGBビデオ、45.3Kのオーディオ、19.5Mのフレームレベルの全身のポーズ記述、120.5Kのシーケンスレベルのセマンティックラベルを含む19.5Mの3Dボディのポーズアノテーションを提供する。
包括的な実験は、アノテーションパイプラインの正確さを検証し、テキスト駆動の全身モーション生成、オーディオ駆動のモーション生成、3Dの人体メッシュリカバリ、および2Dの全身キーポイント推定など、複数の下流タスクをサポートするペア付きマルチモーダルラベルで表現的で正確で自然なモーションを生成するためのMotion-X++の重要なメリットを強調します。
関連論文リスト
- MotionBank: A Large-scale Video Motion Benchmark with Disentangled Rule-based Annotations [85.85596165472663]
我々は、13の動画アクションデータセット、1.24Mのモーションシーケンス、132.9Mの自然な、多様な人間のモーションフレームからなるMotionBankを構築した。
私たちのMotionBankは、人間のモーション生成、モーションインコンテキスト生成、そしてモーション理解といった、一般的なモーション関連タスクに役立ちます。
論文 参考訳(メタデータ) (2024-10-17T17:31:24Z) - Holistic-Motion2D: Scalable Whole-body Human Motion Generation in 2D Space [78.95579123031733]
2次元体全体の動き生成のための総合的かつ大規模ベンチマークであるtextbfHolistic-Motion2D$を提示する。
また、下流アプリケーションにおける2Dモーションの有用性と3Dモーションへのリフトの可能性を強調した。
論文 参考訳(メタデータ) (2024-06-17T06:31:19Z) - Exploring Vision Transformers for 3D Human Motion-Language Models with Motion Patches [12.221087476416056]
動き系列の新しい表現である「動きパッチ」を導入し、移動学習を通して視覚変換器(ViT)をモーションエンコーダとして用いることを提案する。
これらの動きパッチは、運動配列に基づく骨格関節の分割と分類によって作成され、様々な骨格構造に対して堅牢である。
2次元画像データを用いたトレーニングにより得られたViTの事前学習による伝達学習により,動作解析の性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-05-08T02:42:27Z) - Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。
新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。
FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文 参考訳(メタデータ) (2024-03-20T11:38:30Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Motion-X: A Large-scale 3D Expressive Whole-body Human Motion Dataset [40.54625833855793]
Motion-Xは、大規模な3D表現型全身運動データセットである。
15.6Mの正確な3Dボディのポーズアノテーション(SMPL-X)で、巨大なシーンから81.1Kのモーションシーケンスをカバーしている。
Motion-Xは15.6Mフレームレベルの全身ポーズ記述と81.1Kシーケンスレベルのセマンティックラベルを提供する。
論文 参考訳(メタデータ) (2023-07-03T07:57:29Z) - CIRCLE: Capture In Rich Contextual Environments [69.97976304918149]
そこで我々は,アクターが仮想世界において知覚し,操作する新たな動き獲得システムを提案する。
9つのシーンにわたる5人の被験者から10時間のフルボディ到達動作を含むデータセットであるCIRCLEを提示する。
このデータセットを用いて、シーン情報に基づいて人間の動きを生成するモデルを訓練する。
論文 参考訳(メタデータ) (2023-03-31T09:18:12Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z) - SportsCap: Monocular 3D Human Motion Capture and Fine-grained
Understanding in Challenging Sports Videos [40.19723456533343]
SportsCap - 3Dの人間の動きを同時に捉え、モノラルな挑戦的なスポーツビデオ入力からきめ細かなアクションを理解するための最初のアプローチを提案する。
本手法は,組込み空間に先立って意味的かつ時間的構造を持つサブモーションを,モーションキャプチャと理解に活用する。
このようなハイブリッドな動き情報に基づいて,マルチストリーム空間時空間グラフ畳み込みネットワーク(ST-GCN)を導入し,詳細なセマンティックアクション特性を予測する。
論文 参考訳(メタデータ) (2021-04-23T07:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。