論文の概要: Motion-R1: Chain-of-Thought Reasoning and Reinforcement Learning for Human Motion Generation
- arxiv url: http://arxiv.org/abs/2506.10353v1
- Date: Thu, 12 Jun 2025 05:21:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.581517
- Title: Motion-R1: Chain-of-Thought Reasoning and Reinforcement Learning for Human Motion Generation
- Title(参考訳): Motion-R1:人間の動作生成のための連鎖推論と強化学習
- Authors: Runqi Ouyang, Haoyun Li, Zhenyuan Zhang, Xiaofeng Wang, Zheng Zhu, Guan Huang, Xingang Wang,
- Abstract要約: Motion-R1は、Chain-of-Thoughtメカニズムを統合したモーション言語モデリングフレームワークである。
複雑なテキスト命令を論理的に構造化されたアクションパスに明示的に分解することで、モーションR1はモーション生成のための高レベルなセマンティックガイダンスを提供する。
複数のベンチマークデータセットに対する実験では、Motion-R1は最先端の手法と比較して、競争力や優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 31.484189825477877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models, especially in natural language understanding and reasoning, have opened new possibilities for text-to-motion generation. Although existing approaches have made notable progress in semantic alignment and motion synthesis, they often rely on end-to-end mapping strategies that fail to capture deep linguistic structures and logical reasoning. Consequently, generated motions tend to lack controllability, consistency, and diversity. To address these limitations, we propose Motion-R1, a unified motion-language modeling framework that integrates a Chain-of-Thought mechanism. By explicitly decomposing complex textual instructions into logically structured action paths, Motion-R1 provides high-level semantic guidance for motion generation, significantly enhancing the model's ability to interpret and execute multi-step, long-horizon, and compositionally rich commands. To train our model, we adopt Group Relative Policy Optimization, a reinforcement learning algorithm designed for large models, which leverages motion quality feedback to optimize reasoning chains and motion synthesis jointly. Extensive experiments across multiple benchmark datasets demonstrate that Motion-R1 achieves competitive or superior performance compared to state-of-the-art methods, particularly in scenarios requiring nuanced semantic understanding and long-term temporal coherence. The code, model and data will be publicly available.
- Abstract(参考訳): 近年の大規模言語モデル,特に自然言語理解と推論の進歩により,テキスト・トゥ・モーション生成の新たな可能性が高まっている。
既存のアプローチは意味的アライメントと運動合成において顕著な進歩を遂げてきたが、それらはしばしば深い言語構造や論理的推論を捉えるのに失敗するエンドツーエンドのマッピング戦略に依存している。
その結果、生成された動きは制御性、一貫性、多様性に欠ける傾向にある。
これらの制約に対処するため,我々はChain-of-Thought機構を統合したモーション言語モデリングフレームワークであるMotion-R1を提案する。
複雑なテキスト命令を論理的に構造化されたアクションパスに明示的に分解することで、モーションR1は、動作生成のための高レベルなセマンティックガイダンスを提供する。
そこで我々は,大規模モデルを対象とした強化学習アルゴリズムであるGroup Relative Policy Optimizationを採用した。
複数のベンチマークデータセットにわたる大規模な実験は、Motion-R1が最先端の手法と比較して、競争力や優れたパフォーマンスを達成することを示した。
コード、モデル、データは公開されます。
関連論文リスト
- Multimodal Generative AI with Autoregressive LLMs for Human Motion Understanding and Generation: A Way Forward [8.470241117250243]
本稿では,多モード生成人工知能(GenAI)と自己回帰型大規模言語モデル(LLM)を人間の動作理解と生成に利用することに焦点を当てる。
新たな手法、アーキテクチャ、および現実的で汎用的なモーション合成を前進させる可能性についての洞察を提供する。
本研究は,医療,ヒューマノイド,ゲーム,アニメーション,アシスト技術などの応用において,テキスト・トゥ・モーションのGenAIとLLMアーキテクチャの変革の可能性を示すものである。
論文 参考訳(メタデータ) (2025-05-31T11:02:24Z) - GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - CASIM: Composite Aware Semantic Injection for Text to Motion Generation [15.53049009014166]
テキストとモーショントークンの動的対応を学習する複合認識型セマンティックインジェクション機構を提案する。
HumanML3DとKITベンチマークの実験では、CASIMは動きの質、テキスト・モーションアライメント、検索スコアを一貫して改善している。
論文 参考訳(メタデータ) (2025-02-04T07:22:07Z) - Multimodal Large Models Are Effective Action Anticipators [10.454791411515812]
ActionLLMは、ビデオシーケンスを逐次トークンとして扱う新しいアプローチであり、将来のアクションを予測するために大規模言語モデルを活用する。
我々のベースラインモデルは、将来のトークンを設定し、アクションチューニングモジュールを導入し、テキストデコーダ層を線形層に減らし、LCMアーキテクチャを単純化する。
LLMのコモンセンス推論をさらに活用するために、観察されたフレームに対するアクションカテゴリを予測し、シーケンシャルな意味理解を導くためにシーケンシャルなテキスト手がかりを使用する。
論文 参考訳(メタデータ) (2025-01-01T10:16:10Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - GUESS:GradUally Enriching SyntheSis for Text-Driven Human Motion
Generation [23.435588151215594]
そこで本研究では,テキスト駆動型人体動作合成のためのケースケード拡散に基づく新しい生成フレームワークを提案する。
このフレームワークはGradUally Enriching SyntheSis(GUESS)という戦略を略語として利用している。
GUESSは、精度、現実性、多様性において、既存の最先端手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-01-04T08:48:21Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。