論文の概要: FG-MDM: Towards Zero-Shot Human Motion Generation via Fine-Grained Descriptions
- arxiv url: http://arxiv.org/abs/2312.02772v2
- Date: Tue, 23 Apr 2024 08:29:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 19:35:42.459131
- Title: FG-MDM: Towards Zero-Shot Human Motion Generation via Fine-Grained Descriptions
- Title(参考訳): FG-MDM:細粒度記述によるゼロショットヒューマンモーション生成を目指して
- Authors: Xu Shi, Wei Yao, Chuanchen Luo, Junran Peng, Hongwen Zhang, Yunlian Sun,
- Abstract要約: ゼロショットモーション生成のためのFG-MDM(Fin-Grained Human Motion Diffusion Model)という新しいフレームワークを提案する。
具体的には、まず従来の曖昧なテキストアノテーションを、異なる身体部分のきめ細かい記述にパースする。
FG-MDMは、動きの本質に近い記述のため、オリジナルのデータセットの範囲を超えて人間の動きを生成することができる。
- 参考スコア(独自算出の注目度): 19.695991127631974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, significant progress has been made in text-based motion generation, enabling the generation of diverse and high-quality human motions that conform to textual descriptions. However, generating motions beyond the distribution of original datasets remains challenging, i.e., zero-shot generation. By adopting a divide-and-conquer strategy, we propose a new framework named Fine-Grained Human Motion Diffusion Model (FG-MDM) for zero-shot human motion generation. Specifically, we first parse previous vague textual annotations into fine-grained descriptions of different body parts by leveraging a large language model. We then use these fine-grained descriptions to guide a transformer-based diffusion model, which further adopts a design of part tokens. FG-MDM can generate human motions beyond the scope of original datasets owing to descriptions that are closer to motion essence. Our experimental results demonstrate the superiority of FG-MDM over previous methods in zero-shot settings. We will release our fine-grained textual annotations for HumanML3D and KIT.
- Abstract(参考訳): 近年,テキストベースの動作生成において顕著な進歩が見られ,テキスト記述に適合した多種多様な高品質な人間の動作の生成が可能となった。
しかし、元のデータセットの分布を超えた動きを生成することは依然として困難であり、ゼロショット生成である。
そこで我々は,FG-MDM(Fun-Grained Human Motion Diffusion Model)という新たなフレームワークを提案する。
具体的には,まず,前述した曖昧なテキストアノテーションを,大きな言語モデルを活用することで,各部位の微細な記述に分解する。
次に、これらの微細な記述を用いてトランスフォーマーベースの拡散モデルを導出し、さらに部分トークンの設計を採用する。
FG-MDMは、動きの本質に近い記述のため、オリジナルのデータセットの範囲を超えて人間の動きを生成することができる。
実験の結果,FG-MDMはゼロショット設定における従来の手法よりも優れていることが示された。
我々は、HumanML3DとKITのためのきめ細かいテキストアノテーションをリリースします。
関連論文リスト
- OMG: Towards Open-vocabulary Motion Generation via Mixture of
Controllers [47.53127037556484]
我々は、ゼロショットオープン語彙テキストプロンプトから魅力的な動き生成を可能にする新しいフレームワークOMGを提案する。
事前学習の段階では、ドメイン外固有のリッチな動作特性を学習することで、生成能力を向上させる。
微調整の段階では、テキストプロンプトを条件情報として組み込んだモーションコントロールネットを導入する。
論文 参考訳(メタデータ) (2023-12-14T14:31:40Z) - BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics [53.44025678720529]
両手動作生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。
私たちのデータセットには、人体と手の動きの正確な追跡が含まれています。
また,新しいタスクのための強力なベースライン手法であるBOTH2Handsも提供する。
論文 参考訳(メタデータ) (2023-12-13T07:30:19Z) - Act As You Wish: Fine-Grained Control of Motion Diffusion Model with
Hierarchical Semantic Graphs [31.244039305932287]
動き生成のきめ細かい制御のための階層的意味グラフを提案する。
動作記述を階層的なセマンティックグラフに分解し,3段階の動作,行動,具体性を含む。
提案手法は, コミュニティに多大な影響を及ぼす可能性のある, 生成した動きを連続的に改善することができる。
論文 参考訳(メタデータ) (2023-11-02T06:20:23Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Fg-T2M: Fine-Grained Text-Driven Human Motion Generation via Diffusion
Model [11.873294782380984]
そこで本研究では,高精度なテキスト記述をサポートする高品質な条件付き人間の動作シーケンスを生成するための微細な手法を提案する。
本手法は,1) テキスト情報を完全に活用するための正確かつ完全な言語特徴を構築する言語構造支援モジュール,2) 多段階推論を実現するために,浅層および深層グラフニューラルネットワークから近隣および総合的な意味論的特徴を学習する文脈認識プログレッシブ推論モジュールの2つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2023-09-12T14:43:47Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Make-An-Animation: Large-Scale Text-conditional 3D Human Motion
Generation [47.272177594990104]
テキスト条件付き人間動作生成モデルであるMake-An-Animationを紹介する。
大規模な画像テキストデータセットから、より多様なポーズとプロンプトを学ぶ。
テキスト・トゥ・モーション・ジェネレーションの最先端のパフォーマンスに到達します。
論文 参考訳(メタデータ) (2023-05-16T17:58:43Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。