論文の概要: FineMotion: A Dataset and Benchmark with both Spatial and Temporal Annotation for Fine-grained Motion Generation and Editing
- arxiv url: http://arxiv.org/abs/2507.19850v1
- Date: Sat, 26 Jul 2025 07:54:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.286269
- Title: FineMotion: A Dataset and Benchmark with both Spatial and Temporal Annotation for Fine-grained Motion Generation and Editing
- Title(参考訳): FineMotion: 微粒な動きの生成と編集のための空間的および時間的アノテーション付きデータセットとベンチマーク
- Authors: Bizhu Wu, Jinheng Xie, Meidan Ding, Zhe Kong, Jianfeng Ren, Ruibin Bai, Rong Qu, Linlin Shen,
- Abstract要約: 442,000以上の人間の動作スニペットを含むFineMotionデータセットを提案する。
データセットには、モーションシーケンス全体の人体部分の動きを記述した約95kの詳細な段落が含まれている。
- 参考スコア(独自算出の注目度): 36.42160163142448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating realistic human motions from textual descriptions has undergone significant advancements. However, existing methods often overlook specific body part movements and their timing. In this paper, we address this issue by enriching the textual description with more details. Specifically, we propose the FineMotion dataset, which contains over 442,000 human motion snippets - short segments of human motion sequences - and their corresponding detailed descriptions of human body part movements. Additionally, the dataset includes about 95k detailed paragraphs describing the movements of human body parts of entire motion sequences. Experimental results demonstrate the significance of our dataset on the text-driven finegrained human motion generation task, especially with a remarkable +15.3% improvement in Top-3 accuracy for the MDM model. Notably, we further support a zero-shot pipeline of fine-grained motion editing, which focuses on detailed editing in both spatial and temporal dimensions via text. Dataset and code available at: CVI-SZU/FineMotion
- Abstract(参考訳): 文章の記述から現実的な人間の動きを生成することは、大きな進歩を遂げた。
しかし、既存の方法は、特定の身体部分の動きとそのタイミングを見落としていることが多い。
本稿では,テキスト記述を充実させることにより,この問題に対処する。
具体的には、442,000以上の人体の動きスニペット(人間の動きシーケンスの短い部分)と、それに対応する人体部分の動きの詳細な記述を含むFineMotionデータセットを提案する。
さらに、データセットには、モーションシーケンス全体の人体部分の動きを記述した約95kの詳細な段落が含まれている。
実験結果から,テキスト駆動型人体運動生成タスクにおけるデータセットの重要性が示され,特にMDMモデルにおけるTop-3精度は,+15.3%向上した。
特に,テキストによる空間的,時間的両面の詳細な編集に焦点を当てた,微粒な動き編集のゼロショットパイプラインをさらにサポートする。
データセットとコード:CVI-SZU/FineMotion
関連論文リスト
- Motion-X++: A Large-Scale Multimodal 3D Whole-body Human Motion Dataset [35.47253826828815]
Motion-X++は大規模なマルチモーダル3D表現型人体モーションデータセットである。
Motion-X++は、巨大なシーンから120.5Kのモーションシーケンスをカバーする19.5Mの全身のポーズアノテーションを提供する。
論文 参考訳(メタデータ) (2025-01-09T09:37:27Z) - MotionBank: A Large-scale Video Motion Benchmark with Disentangled Rule-based Annotations [85.85596165472663]
我々は、13の動画アクションデータセット、1.24Mのモーションシーケンス、132.9Mの自然な、多様な人間のモーションフレームからなるMotionBankを構築した。
私たちのMotionBankは、人間のモーション生成、モーションインコンテキスト生成、そしてモーション理解といった、一般的なモーション関連タスクに役立ちます。
論文 参考訳(メタデータ) (2024-10-17T17:31:24Z) - MotionFix: Text-Driven 3D Human Motion Editing [52.11745508960547]
主な課題は、トレーニングデータの不足と、ソースの動きを正確に編集するモデルの設計である。
本研究では, (i) 震源運動, (ii) 目標運動, (iii) 編集テキストからなる三つ組のデータセットを半自動で収集する手法を提案する。
このデータにアクセスすると、ソースモーションと編集テキストの両方を入力として取り込む条件拡散モデルTMEDをトレーニングできます。
論文 参考訳(メタデータ) (2024-08-01T16:58:50Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。
新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。
FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文 参考訳(メタデータ) (2024-03-20T11:38:30Z) - MotionScript: Natural Language Descriptions for Expressive 3D Human Motions [8.050271017133076]
人間の3次元動作の詳細な自然言語記述を生成するための新しいフレームワークであるMotionScriptを紹介した。
MotionScriptは、人間の動きの完全な複雑さを捉える、きめ細かい構造化された記述を提供する。
MotionScriptは、テキスト・トゥ・モーションモデルのための記述ツールとトレーニングリソースの両方として機能する。
論文 参考訳(メタデータ) (2023-12-19T22:33:17Z) - BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics [50.88842027976421]
両手動作生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。
私たちのデータセットには、人体と手の動きの正確な追跡が含まれています。
また,新しいタスクのための強力なベースライン手法であるBOTH2Handsも提供する。
論文 参考訳(メタデータ) (2023-12-13T07:30:19Z) - OmniMotionGPT: Animal Motion Generation with Limited Data [70.35662376853163]
最初のテキストアニマルモーションデータセットであるAnimalML3Dを紹介した。
我々は,動物データに基づくヒトの動き生成ベースラインのトレーニング結果よりも定量的かつ質的に,高い多様性と忠実さで動物の動きを生成することができる。
論文 参考訳(メタデータ) (2023-11-30T07:14:00Z) - Motion-X: A Large-scale 3D Expressive Whole-body Human Motion Dataset [40.54625833855793]
Motion-Xは、大規模な3D表現型全身運動データセットである。
15.6Mの正確な3Dボディのポーズアノテーション(SMPL-X)で、巨大なシーンから81.1Kのモーションシーケンスをカバーしている。
Motion-Xは15.6Mフレームレベルの全身ポーズ記述と81.1Kシーケンスレベルのセマンティックラベルを提供する。
論文 参考訳(メタデータ) (2023-07-03T07:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。