論文の概要: Re$^2$MoGen: Open-Vocabulary Motion Generation via LLM Reasoning and Physics-Aware Refinement
- arxiv url: http://arxiv.org/abs/2604.17807v1
- Date: Mon, 20 Apr 2026 04:59:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.698546
- Title: Re$^2$MoGen: Open-Vocabulary Motion Generation via LLM Reasoning and Physics-Aware Refinement
- Title(参考訳): Re$2$MoGen: LLM推論と物理認識によるオープン語彙運動生成
- Authors: Jiakun Zheng, Ting Xiao, Shiqin Cao, Xinran Li, Zhe Wang, Chenjia Bai,
- Abstract要約: Re$2$MoGenはReasoning and Refinement Open-vocabulary Motion Generationフレームワークである。
初期動作計画を生成し、強化学習(RL)後トレーニングを通じて身体的可視性を洗練させる。
我々のフレームワークは意味論的に一貫性があり、物理的に妥当な動きを生成し、オープン語彙の動作生成において最先端のパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 27.84741874985021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-motion (T2M) generation aims to control the behavior of a target character via textual descriptions. Leveraging text-motion paired datasets, existing T2M models have achieved impressive performance in generating high-quality motions within the distribution of their training data. However, their performance deteriorates notably when the motion descriptions differ significantly from the training texts. To address this issue, we propose Re$^2$MoGen, a Reasoning and Refinement open-vocabulary Motion Generation framework that leverages enhanced Large Language Model (LLM) reasoning to generate an initial motion planning and then refine its physical plausibility via reinforcement learning (RL) post-training. Specifically, Re$^2$MoGen consists of three stages: We first employ Monte Carlo tree search to enhance the LLM's reasoning ability in generating reasonable keyframes of the motion based on text prompts, specifying only the root and several key joints' positions to ease the reasoning process. Then, we apply a human pose model as a prior to optimize the full-body poses based on the planned keyframes and use the resulting incomplete motion to supervise fine-tuning a pre-trained motion generator via a dynamic temporal matching objective, enabling spatiotemporal completion. Finally, we use post-training with physics-aware reward to refine motion quality to eliminate physical implausibility in LLM-planned motions. Extensive experiments demonstrate that our framework can generate semantically consistent and physically plausible motions and achieve state-of-the-art performance in open-vocabulary motion generation.
- Abstract(参考訳): テキスト・トゥ・モーション(T2M)生成は、テキスト記述を通じて対象文字の振る舞いを制御することを目的としている。
テキストモーションペアデータセットを活用することで、既存のT2Mモデルは、トレーニングデータの分散内で高品質なモーションを生成することで、優れたパフォーマンスを実現している。
しかし,動作記述がトレーニングテキストと大きく異なる場合には,その性能は著しく低下する。
この問題を解決するためにRe$^2$MoGenを提案する。Reasoning and Refinement Open-vocabulary Motion Generation frameworkは、拡張されたLarge Language Model(LLM)推論を利用して初期動作計画を生成し、強化学習(RL)後トレーニングによってその物理的妥当性を向上する。
特に、Re$^2$MoGenは3つの段階から構成される: 私たちはまずモンテカルロ木探索を用いて、テキストプロンプトに基づいて動きの合理的なキーフレームを生成し、ルートといくつかのキージョイントの位置のみを指定することで、推論プロセスの容易化を図る。
次に,人間のポーズモデルを用いて,計画されたキーフレームに基づいて全身のポーズを最適化し,結果として得られた不完全動作を用いて,動的時間的マッチング目的を介し事前学習したモーションジェネレータの微調整を監督し,時空間的補完を可能にする。
最後に,LLM計画運動における身体的不確実性を排除するために,物理認識報酬を用いたポストトレーニングを用いて運動品質を改良する。
大規模な実験により,我々のフレームワークは意味論的に一貫した物理的に妥当な動作を生成でき,オープン語彙運動生成における最先端の性能を実現することができることが示された。
関連論文リスト
- DiMo: Discrete Diffusion Modeling for Motion Generation and Understanding [25.254783224309488]
マスク付きモデリングからテキスト-モーション理解と生成まで拡張した,離散拡散スタイルのフレームワークであるDiMoを提案する。
動きをトークン化し、順次デコードするGPTスタイルの自己回帰アプローチとは異なり、DiMoは繰り返しマスク付きトークン精錬を行う。
HumanML3DとKIT-MLの実験は、強い運動品質と競合する双方向理解を示す。
論文 参考訳(メタデータ) (2026-02-04T04:01:02Z) - IRG-MotionLLM: Interleaving Motion Generation, Assessment and Refinement for Text-to-Motion Generation [54.36300724708094]
評価と改善のタスクは、理解と生成の間の双方向の知識フローを可能にするために重要なブリッジとして機能する。
動作生成、評価、改善をシームレスにインターリーブし、生成性能を向上させる最初のモデルであるIRG-MotionLLMを紹介する。
論文 参考訳(メタデータ) (2025-12-11T15:16:06Z) - VimoRAG: Video-based Retrieval-augmented 3D Motion Generation for Motion Language Models [110.32291962407078]
VimoRAG(ヴィモラグ)は、動画に基づく大規模言語モデルのためのモーション生成フレームワークである。
動作中心の効果的なビデオ検索モデルを開発し、最適下検索結果による誤り伝播の問題を緩和する。
実験結果から,VimoRAGはテキストのみの入力に制約された動きLLMの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-16T15:31:14Z) - M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.48046909056468]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。
M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-11T04:48:12Z) - RL from Physical Feedback: Aligning Large Motion Models with Humanoid Control [32.37239524019001]
本稿では,テキスト駆動型人間動作をヒューマノイドロボットの実行可能な動作に変換することに焦点を当てた。
既存のテキスト・トゥ・モーション生成手法は、実世界の展開には適さない運動を運動的にも身体的にも生成する。
本稿では,物理認識型動作評価とテキスト条件付き動作生成を統合した新しいフレームワークである物理フィードバックからの強化学習を提案する。
論文 参考訳(メタデータ) (2025-06-15T08:39:49Z) - VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。
VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。
本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-30T09:03:09Z) - MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。