論文の概要: Plan, Posture and Go: Towards Open-World Text-to-Motion Generation
- arxiv url: http://arxiv.org/abs/2312.14828v1
- Date: Fri, 22 Dec 2023 17:02:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 14:16:25.902826
- Title: Plan, Posture and Go: Towards Open-World Text-to-Motion Generation
- Title(参考訳): Plan, Posture and Go: オープンワールドテキスト・ツー・モーション・ジェネレーションを目指して
- Authors: Jinpeng Liu, Wenxun Dai, Chunyu Wang, Yiji Cheng, Yansong Tang, Xin
Tong
- Abstract要約: Pro-Motion という分断型フレームワークを提案する。
モーションプランナー、姿勢ディフューザ、go-diffuserの3つのモジュールで構成されている。
Pro-Motionは複雑なオープンワールドプロンプトから多様でリアルな動きを生成することができる。
- 参考スコア(独自算出の注目度): 43.392549755386135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional text-to-motion generation methods are usually trained on limited
text-motion pairs, making them hard to generalize to open-world scenarios. Some
works use the CLIP model to align the motion space and the text space, aiming
to enable motion generation from natural language motion descriptions. However,
they are still constrained to generate limited and unrealistic in-place
motions. To address these issues, we present a divide-and-conquer framework
named PRO-Motion, which consists of three modules as motion planner,
posture-diffuser and go-diffuser. The motion planner instructs Large Language
Models (LLMs) to generate a sequence of scripts describing the key postures in
the target motion. Differing from natural languages, the scripts can describe
all possible postures following very simple text templates. This significantly
reduces the complexity of posture-diffuser, which transforms a script to a
posture, paving the way for open-world generation. Finally, go-diffuser,
implemented as another diffusion model, estimates whole-body translations and
rotations for all postures, resulting in realistic motions. Experimental
results have shown the superiority of our method with other counterparts, and
demonstrated its capability of generating diverse and realistic motions from
complex open-world prompts such as "Experiencing a profound sense of joy". The
project page is available at https://moonsliu.github.io/Pro-Motion.
- Abstract(参考訳): 従来のテキストからモーションへの生成法は通常、限られたテキストとモーションのペアで訓練されるため、オープンワールドシナリオへの一般化は困難である。
CLIPモデルを用いて動き空間とテキスト空間を整列し、自然言語の動作記述から動き生成を可能にする研究もある。
しかし、それらは依然として限定的で非現実的な動きを発生させることに制限されている。
これらの問題に対処するため,動作プランナ,姿勢ディフューザ,go-diffuser の3つのモジュールからなる PRO-Motion という分割型フレームワークを提案する。
モーションプランナーは、大きな言語モデル(llm)に目標の動きにおける主要な姿勢を記述する一連のスクリプトを生成するよう指示する。
自然言語とは異なり、スクリプトは、非常に単純なテキストテンプレートに従って、あらゆる可能な姿勢を記述できる。
これにより、スクリプトを姿勢に変換する姿勢微分器の複雑さが大幅に減少し、オープンワールド生成への道が開ける。
最後に、go-diffuserは別の拡散モデルとして実装され、すべての姿勢に対する全体翻訳と回転を推定し、現実的な動きをもたらす。
実験により,本手法が他の手法よりも優れていることを示すとともに,複雑なオープンワールドプロンプトから多様で現実的な動作を生成できることを実証した。
プロジェクトページはhttps://moonsliu.github.io/pro-motion。
関連論文リスト
- Textual Decomposition Then Sub-motion-space Scattering for Open-Vocabulary Motion Generation [74.94730615777212]
テキスト・トゥ・モーション・ジェネレーションはコンピュータビジョンにおいて重要なタスクであり、与えられたテキストによってターゲットとなる3Dモーションを生成する。
現在の注釈付きデータセットの限られたスケールでは、サブテキストスペースからサブモーションスペースへのマッピングしか実現できない。
本稿では,原子運動を中間表現として活用し,テキスト分解とサブモーション空間散乱という2つの秩序に結合したステップを活用することを提案する。
論文 参考訳(メタデータ) (2024-11-06T17:57:43Z) - MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - LaMP: Language-Motion Pretraining for Motion Generation, Retrieval, and Captioning [19.801187860991117]
この新しいLanguage-Motion PretrainingモデルであるLaMPを紹介する。
LaMPは、モーションインフォームティブなテキスト埋め込みを生成し、生成されたモーションシーケンスの関連性とセマンティックスを大幅に強化する。
キャプションでは,言語非表現の動作特徴を持つ大きな言語モデルを微調整し,強力な動きキャプションモデルを開発する。
論文 参考訳(メタデータ) (2024-10-09T17:33:03Z) - Unimotion: Unifying 3D Human Motion Synthesis and Understanding [47.18338511861108]
フレキシブル・モーション・コントロールとフレームレベルのモーション・理解を両立できる初のマルチタスク・ヒューマン・モーション・モデルであるUnimotionを導入する。
Unimotionは、グローバルテキストやローカルフレームレベルのテキストでモーションを制御できる。
論文 参考訳(メタデータ) (2024-09-24T09:20:06Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - CoMo: Controllable Motion Generation through Language Guided Pose Code Editing [57.882299081820626]
本稿では,制御可能なモーション生成モデルであるCoMoについて紹介する。
CoMoは、動きを離散的で意味のあるポーズコードに分解する。
自動的にポーズコードのシーケンスを生成し、それを3Dモーションにデコードする。
論文 参考訳(メタデータ) (2024-03-20T18:11:10Z) - Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。
新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。
FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文 参考訳(メタデータ) (2024-03-20T11:38:30Z) - LivePhoto: Real Image Animation with Text-guided Motion Control [51.31418077586208]
この研究はLivePhotoという名前の実用的なシステムを示し、ユーザーが興味のある画像をテキスト記述でアニメーション化することができる。
まず、よく学習されたテキスト・ツー・イメージ・ジェネレータ(すなわち、安定拡散)がさらに入力として画像を取るのを助ける強力なベースラインを確立する。
次に、時間的モデリングのためのモーションモジュールを改良されたジェネレータに装備し、テキストとモーションのリンクをより良くするための、慎重に設計されたトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-05T17:59:52Z) - Story-to-Motion: Synthesizing Infinite and Controllable Character
Animation from Long Text [14.473103773197838]
ストーリー・トゥ・モーション(Story-to-Motion)と呼ばれる新しいタスクは、文字が長いテキスト記述に基づいて特定の動作を行う必要があるときに発生する。
文字制御とテキスト・トゥ・モーションのこれまでの研究は、関連する側面に対処してきたが、包括的解決はいまだ解明されていない。
本稿では,制御可能で無限に長い動きと,入力テキストに整合した軌跡を生成する新しいシステムを提案する。
論文 参考訳(メタデータ) (2023-11-13T16:22:38Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。