論文の概要: Motion-X: A Large-scale 3D Expressive Whole-body Human Motion Dataset
- arxiv url: http://arxiv.org/abs/2307.00818v2
- Date: Fri, 26 Jan 2024 15:40:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 18:26:02.981235
- Title: Motion-X: A Large-scale 3D Expressive Whole-body Human Motion Dataset
- Title(参考訳): Motion-X:大規模3D表現型人体モーションデータセット
- Authors: Jing Lin, Ailing Zeng, Shunlin Lu, Yuanhao Cai, Ruimao Zhang, Haoqian
Wang, Lei Zhang
- Abstract要約: Motion-Xは、大規模な3D表現型全身運動データセットである。
15.6Mの正確な3Dボディのポーズアノテーション(SMPL-X)で、巨大なシーンから81.1Kのモーションシーケンスをカバーしている。
Motion-Xは15.6Mフレームレベルの全身ポーズ記述と81.1Kシーケンスレベルのセマンティックラベルを提供する。
- 参考スコア(独自算出の注目度): 40.54625833855793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present Motion-X, a large-scale 3D expressive whole-body
motion dataset. Existing motion datasets predominantly contain body-only poses,
lacking facial expressions, hand gestures, and fine-grained pose descriptions.
Moreover, they are primarily collected from limited laboratory scenes with
textual descriptions manually labeled, which greatly limits their scalability.
To overcome these limitations, we develop a whole-body motion and text
annotation pipeline, which can automatically annotate motion from either
single- or multi-view videos and provide comprehensive semantic labels for each
video and fine-grained whole-body pose descriptions for each frame. This
pipeline is of high precision, cost-effective, and scalable for further
research. Based on it, we construct Motion-X, which comprises 15.6M precise 3D
whole-body pose annotations (i.e., SMPL-X) covering 81.1K motion sequences from
massive scenes. Besides, Motion-X provides 15.6M frame-level whole-body pose
descriptions and 81.1K sequence-level semantic labels. Comprehensive
experiments demonstrate the accuracy of the annotation pipeline and the
significant benefit of Motion-X in enhancing expressive, diverse, and natural
motion generation, as well as 3D whole-body human mesh recovery.
- Abstract(参考訳): 本稿では,大規模3次元表現型全身運動データセットmotion-xについて述べる。
既存のモーションデータセットは、主に体のみのポーズ、表情の欠如、手のジェスチャー、きめ細かいポーズ記述を含んでいる。
さらに、それらは主に、手作業でテキスト記述をラベル付けした限られた実験シーンから収集されるため、スケーラビリティが大幅に制限される。
これらの制限を克服するため,我々は,単眼または多眼映像からの動画に注釈を付与し,各映像に総合的な意味ラベルを付与し,各フレームに細粒度なボディポーズ記述を付与する,全身動作およびテキストアノテーションパイプラインを開発した。
このパイプラインは高精度で費用対効果があり、さらなる研究のためにスケーラブルである。
motion-xは、巨大なシーンから81.1kのモーションシーケンスをカバーする15.6mの正確な3dポーズアノテーション(smpl-x)で構成されている。
さらに、Motion-Xは15.6Mフレームレベルの全身ポーズ記述と81.1Kシーケンスレベルのセマンティックラベルを提供する。
包括的な実験は、アノテーションパイプラインの正確さと、表現力、多様性、自然なモーション生成の強化におけるMotion-Xの顕著な利点、および3次元の人体メッシュの回復を示す。
関連論文リスト
- MotionBank: A Large-scale Video Motion Benchmark with Disentangled Rule-based Annotations [85.85596165472663]
我々は、13の動画アクションデータセット、1.24Mのモーションシーケンス、132.9Mの自然な、多様な人間のモーションフレームからなるMotionBankを構築した。
私たちのMotionBankは、人間のモーション生成、モーションインコンテキスト生成、そしてモーション理解といった、一般的なモーション関連タスクに役立ちます。
論文 参考訳(メタデータ) (2024-10-17T17:31:24Z) - Holistic-Motion2D: Scalable Whole-body Human Motion Generation in 2D Space [78.95579123031733]
2次元体全体の動き生成のための総合的かつ大規模ベンチマークであるtextbfHolistic-Motion2D$を提示する。
また、下流アプリケーションにおける2Dモーションの有用性と3Dモーションへのリフトの可能性を強調した。
論文 参考訳(メタデータ) (2024-06-17T06:31:19Z) - Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。
新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。
FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文 参考訳(メタデータ) (2024-03-20T11:38:30Z) - Act As You Wish: Fine-Grained Control of Motion Diffusion Model with
Hierarchical Semantic Graphs [31.244039305932287]
動き生成のきめ細かい制御のための階層的意味グラフを提案する。
動作記述を階層的なセマンティックグラフに分解し,3段階の動作,行動,具体性を含む。
提案手法は, コミュニティに多大な影響を及ぼす可能性のある, 生成した動きを連続的に改善することができる。
論文 参考訳(メタデータ) (2023-11-02T06:20:23Z) - TapMo: Shape-aware Motion Generation of Skeleton-free Characters [64.83230289993145]
骨格のない3Dキャラクタの広帯域における動作のためのテキスト駆動アニメーションパイプラインであるTapMoを提案する。
TapMoはMesh Handle PredictorとShape-aware Diffusion Moduleの2つの主要コンポーネントで構成されている。
論文 参考訳(メタデータ) (2023-10-19T12:14:32Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - SportsCap: Monocular 3D Human Motion Capture and Fine-grained
Understanding in Challenging Sports Videos [40.19723456533343]
SportsCap - 3Dの人間の動きを同時に捉え、モノラルな挑戦的なスポーツビデオ入力からきめ細かなアクションを理解するための最初のアプローチを提案する。
本手法は,組込み空間に先立って意味的かつ時間的構造を持つサブモーションを,モーションキャプチャと理解に活用する。
このようなハイブリッドな動き情報に基づいて,マルチストリーム空間時空間グラフ畳み込みネットワーク(ST-GCN)を導入し,詳細なセマンティックアクション特性を予測する。
論文 参考訳(メタデータ) (2021-04-23T07:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。