論文の概要: FG-MDM: Towards Zero-Shot Human Motion Generation via Fine-Grained Descriptions
- arxiv url: http://arxiv.org/abs/2312.02772v2
- Date: Tue, 23 Apr 2024 08:29:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 19:35:42.459131
- Title: FG-MDM: Towards Zero-Shot Human Motion Generation via Fine-Grained Descriptions
- Title(参考訳): FG-MDM:細粒度記述によるゼロショットヒューマンモーション生成を目指して
- Authors: Xu Shi, Wei Yao, Chuanchen Luo, Junran Peng, Hongwen Zhang, Yunlian Sun,
- Abstract要約: ゼロショットモーション生成のためのFG-MDM(Fin-Grained Human Motion Diffusion Model)という新しいフレームワークを提案する。
具体的には、まず従来の曖昧なテキストアノテーションを、異なる身体部分のきめ細かい記述にパースする。
FG-MDMは、動きの本質に近い記述のため、オリジナルのデータセットの範囲を超えて人間の動きを生成することができる。
- 参考スコア(独自算出の注目度): 19.695991127631974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, significant progress has been made in text-based motion generation, enabling the generation of diverse and high-quality human motions that conform to textual descriptions. However, generating motions beyond the distribution of original datasets remains challenging, i.e., zero-shot generation. By adopting a divide-and-conquer strategy, we propose a new framework named Fine-Grained Human Motion Diffusion Model (FG-MDM) for zero-shot human motion generation. Specifically, we first parse previous vague textual annotations into fine-grained descriptions of different body parts by leveraging a large language model. We then use these fine-grained descriptions to guide a transformer-based diffusion model, which further adopts a design of part tokens. FG-MDM can generate human motions beyond the scope of original datasets owing to descriptions that are closer to motion essence. Our experimental results demonstrate the superiority of FG-MDM over previous methods in zero-shot settings. We will release our fine-grained textual annotations for HumanML3D and KIT.
- Abstract(参考訳): 近年,テキストベースの動作生成において顕著な進歩が見られ,テキスト記述に適合した多種多様な高品質な人間の動作の生成が可能となった。
しかし、元のデータセットの分布を超えた動きを生成することは依然として困難であり、ゼロショット生成である。
そこで我々は,FG-MDM(Fun-Grained Human Motion Diffusion Model)という新たなフレームワークを提案する。
具体的には,まず,前述した曖昧なテキストアノテーションを,大きな言語モデルを活用することで,各部位の微細な記述に分解する。
次に、これらの微細な記述を用いてトランスフォーマーベースの拡散モデルを導出し、さらに部分トークンの設計を採用する。
FG-MDMは、動きの本質に近い記述のため、オリジナルのデータセットの範囲を超えて人間の動きを生成することができる。
実験の結果,FG-MDMはゼロショット設定における従来の手法よりも優れていることが示された。
我々は、HumanML3DとKITのためのきめ細かいテキストアノテーションをリリースします。
関連論文リスト
- Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance [48.986552871497]
本稿では,シーンアベイランスを中間表現として活用する新しい2段階フレームワークを提案する。
シーンアベイランスマップを活用することで,マルチモーダルな条件下での人間の動きを再現する難しさを克服する。
我々のアプローチは、HumanML3DやHUMANISEなど、確立されたベンチマークのベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-03-26T18:41:07Z) - Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。
新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。
FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文 参考訳(メタデータ) (2024-03-20T11:38:30Z) - OMG: Towards Open-vocabulary Motion Generation via Mixture of Controllers [45.808597624491156]
我々は、ゼロショットオープン語彙テキストプロンプトから魅力的な動き生成を可能にする新しいフレームワークOMGを提案する。
事前学習の段階では、ドメイン外固有のリッチな動作特性を学習することで、生成能力を向上させる。
微調整の段階では、テキストプロンプトを条件情報として組み込んだモーションコントロールネットを導入する。
論文 参考訳(メタデータ) (2023-12-14T14:31:40Z) - Hierarchical Generation of Human-Object Interactions with Diffusion
Probabilistic Models [71.64318025625833]
本稿では,対象物と相互作用する人間の3次元運動を生成するための新しいアプローチを提案する。
私たちのフレームワークはまず一連のマイルストーンを生成し、それに沿って動きを合成します。
NSM, COUCH, SAMPデータセットを用いた実験では, 従来の手法よりも品質と多様性に大きな差があることが示されている。
論文 参考訳(メタデータ) (2023-10-03T17:50:23Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Human Motion Diffusion Model [35.05219668478535]
運動拡散モデル(英: Motion Diffusion Model、MDM)は、人間の動作領域に対する変換器に基づく生成モデルである。
我々は,本モデルが軽量な資源で訓練されていることを示すとともに,テキスト・トゥ・モーションとアクション・トゥ・モーションのベンチマークにおいて,最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2022-09-29T16:27:53Z) - REMOT: A Region-to-Whole Framework for Realistic Human Motion Transfer [96.64111294772141]
HVMT(Human Video Motion Transfer)は、運転者の動きを模倣した映像を生成することを目的としている。
HVMTの既存の方法は、主にGAN(Generative Adversarial Networks)を利用してワープ操作を行う。
本稿では,GANをベースとした新しい人体移動フレームワークについて述べる。
論文 参考訳(メタデータ) (2022-09-01T14:03:51Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。