論文の概要: IRG-MotionLLM: Interleaving Motion Generation, Assessment and Refinement for Text-to-Motion Generation
- arxiv url: http://arxiv.org/abs/2512.10730v1
- Date: Thu, 11 Dec 2025 15:16:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.435949
- Title: IRG-MotionLLM: Interleaving Motion Generation, Assessment and Refinement for Text-to-Motion Generation
- Title(参考訳): IRG-MotionLLM:テキスト・ツー・モーション・ジェネレーションのためのインターリービング・モーション・ジェネレーション・アセスメント・リファインメント
- Authors: Yuan-Ming Li, Qize Yang, Nan Lei, Shenghao Fu, Ling-An Zeng, Jian-Fang Hu, Xihan Wei, Wei-Shi Zheng,
- Abstract要約: 評価と改善のタスクは、理解と生成の間の双方向の知識フローを可能にするために重要なブリッジとして機能する。
動作生成、評価、改善をシームレスにインターリーブし、生成性能を向上させる最初のモデルであるIRG-MotionLLMを紹介する。
- 参考スコア(独自算出の注目度): 54.36300724708094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in motion-aware large language models have shown remarkable promise for unifying motion understanding and generation tasks. However, these models typically treat understanding and generation separately, limiting the mutual benefits that could arise from interactive feedback between tasks. In this work, we reveal that motion assessment and refinement tasks act as crucial bridges to enable bidirectional knowledge flow between understanding and generation. Leveraging this insight, we propose Interleaved Reasoning for Motion Generation (IRMoGen), a novel paradigm that tightly couples motion generation with assessment and refinement through iterative text-motion dialogue. To realize this, we introduce IRG-MotionLLM, the first model that seamlessly interleaves motion generation, assessment, and refinement to improve generation performance. IRG-MotionLLM is developed progressively with a novel three-stage training scheme, initializing and subsequently enhancing native IRMoGen capabilities. To facilitate this development, we construct an automated data engine to synthesize interleaved reasoning annotations from existing text-motion datasets. Extensive experiments demonstrate that: (i) Assessment and refinement tasks significantly improve text-motion alignment; (ii) Interleaving motion generation, assessment, and refinement steps yields consistent performance gains across training stages; and (iii) IRG-MotionLLM clearly outperforms the baseline model and achieves advanced performance on standard text-to-motion generation benchmarks. Cross-evaluator testing further validates its effectiveness. Code & Data: https://github.com/HumanMLLM/IRG-MotionLLM/tree/main.
- Abstract(参考訳): 動き認識型大規模言語モデルの最近の進歩は、動作理解と生成タスクの統合に顕著な期待を示している。
しかしながら、これらのモデルは一般的に理解と生成を別々に扱い、タスク間のインタラクティブなフィードバックから生じる相互利益を制限する。
本研究では,動作評価と改善タスクが,理解と生成の間の双方向の知識フローを実現するために重要なブリッジとして機能することを明らかにする。
この知見を生かしたIRMoGen(Interleaved Reasoning for Motion Generation)を提案する。
これを実現するために、我々は、動作生成、評価、改善をシームレスにインターリーブし、生成性能を向上させる最初のモデルIRG-MotionLLMを紹介する。
IRG-MotionLLMは、新しい3段階のトレーニングスキームで徐々に開発され、ネイティブIRMoGen機能を初期化し、拡張している。
この開発を容易にするために,既存のテキストモーションデータセットからインターリーブされた推論アノテーションを合成する自動データエンジンを構築した。
大規模な実験は以下のとおりである。
一 テキスト・モーション・アライメントを著しく改善すること。
2 運動生成、評価及び改善の段階が訓練段階にわたって一貫した性能向上をもたらすこと。
(iii)IRG-MotionLLMはベースラインモデルより明らかに優れ、標準のテキスト-モーション生成ベンチマークで高度な性能を実現している。
クロス評価器テストは、その有効性をさらに検証する。
Code & Data: https://github.com/HumanMLLM/IRG-MotionLLM/tree/main
関連論文リスト
- MotionVerse: A Unified Multimodal Framework for Motion Comprehension, Generation and Editing [53.98607267063729]
MotionVerseは、シングルパーソンとマルチパーソンの両方のシナリオで人間の動作を理解し、生成し、編集するフレームワークである。
我々は、連続的な動き列をマルチストリーム離散トークンに変換する残差量子化を伴う動きトークン化器を用いる。
また、残留トークンストリームの符号化を時間的に停滞させる textitDelay Parallel Modeling 戦略も導入する。
論文 参考訳(メタデータ) (2025-09-28T04:20:56Z) - MOGO: Residual Quantized Hierarchical Causal Transformer for High-Quality and Real-Time 3D Human Motion Generation [3.6669020073583756]
MOGOは、効率的でリアルタイムな3Dモーション生成に適した新しい自動回帰フレームワークである。
MoGOは、運動スケール適応型残留ベクトル量子化モジュールであるMoSA-VQと、残留量子化階層型因果変換器であるRQHC-Transformerの2つの重要なコンポーネントから構成される。
意味的忠実性を高めるために,テキスト制御下での動作復号化を改善するテキスト条件アライメント機構を導入する。
論文 参考訳(メタデータ) (2025-06-06T10:26:54Z) - Multimodal Generative AI with Autoregressive LLMs for Human Motion Understanding and Generation: A Way Forward [8.470241117250243]
本稿では,多モード生成人工知能(GenAI)と自己回帰型大規模言語モデル(LLM)を人間の動作理解と生成に利用することに焦点を当てる。
新たな手法、アーキテクチャ、および現実的で汎用的なモーション合成を前進させる可能性についての洞察を提供する。
本研究は,医療,ヒューマノイド,ゲーム,アニメーション,アシスト技術などの応用において,テキスト・トゥ・モーションのGenAIとLLMアーキテクチャの変革の可能性を示すものである。
論文 参考訳(メタデータ) (2025-05-31T11:02:24Z) - GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - CASIM: Composite Aware Semantic Injection for Text to Motion Generation [15.53049009014166]
テキストとモーショントークンの動的対応を学習する複合認識型セマンティックインジェクション機構を提案する。
HumanML3DとKITベンチマークの実験では、CASIMは動きの質、テキスト・モーションアライメント、検索スコアを一貫して改善している。
論文 参考訳(メタデータ) (2025-02-04T07:22:07Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - ReMoDiffuse: Retrieval-Augmented Motion Diffusion Model [33.64263969970544]
3Dのモーション生成はクリエイティブ産業にとって不可欠だ。
近年の進歩は、テキスト駆動モーション生成のためのドメイン知識を持つ生成モデルに依存している。
本稿では拡散モデルに基づく動き生成フレームワークReMoDiffuseを提案する。
論文 参考訳(メタデータ) (2023-04-03T16:29:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。