論文の概要: UniMo: Unified Motion Generation and Understanding with Chain of Thought
- arxiv url: http://arxiv.org/abs/2601.12126v1
- Date: Sat, 17 Jan 2026 17:56:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.472533
- Title: UniMo: Unified Motion Generation and Understanding with Chain of Thought
- Title(参考訳): UniMo: 統一されたモーション生成と思考の連鎖による理解
- Authors: Guocun Wang, Kenkun Liu, Jing Lin, Guorui Song, Jian Li, Xiaoguang Han,
- Abstract要約: UniMoは、動き言語情報と解釈可能な思考の連鎖(CoT)を大きな言語モデルに統合する新しいフレームワークである。
動作生成と理解の両方において、UniMoは既存の統合モデルとタスク固有モデルを大幅に上回っており、最先端のパフォーマンスを実現していることを示す。
- 参考スコア(独自算出の注目度): 18.404131357169657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing 3D human motion generation and understanding methods often exhibit limited interpretability, restricting effective mutual enhancement between these inherently related tasks. While current unified frameworks based on large language models (LLMs) leverage linguistic priors, they frequently encounter challenges in semantic alignment and task coherence. Moreover, the next-token prediction paradigm in LLMs is ill-suited for motion sequences, causing cumulative prediction errors. To address these limitations, we propose UniMo, a novel framework that integrates motion-language information and interpretable chain of thought (CoT) reasoning into the LLM via supervised fine-tuning (SFT). We further introduce reinforcement learning with Group Relative Policy Optimization (GRPO) as a post-training strategy that optimizes over groups of tokens to enforce structural correctness and semantic alignment, mitigating cumulative errors in motion token prediction. Extensive experiments demonstrate that UniMo significantly outperforms existing unified and task-specific models, achieving state-of-the-art performance in both motion generation and understanding.
- Abstract(参考訳): 既存の3次元動作生成および理解手法は、しばしば限定的な解釈可能性を示し、これらの本質的に関連するタスク間の効果的な相互強化を制限する。
大規模言語モデル(LLM)に基づく現在の統一フレームワークは言語的先行性を活用するが、セマンティックアライメントとタスクコヒーレンスにおいてしばしば課題に遭遇する。
さらに、LLMの次点予測パラダイムは、動き列に不適であり、累積予測誤差を引き起こす。
これらの制約に対処するため,動作言語情報と解釈可能な思考連鎖(CoT)を教師付き微調整(SFT)によりLLMに組み込む新しいフレームワークであるUniMoを提案する。
さらに,グループ相対的政策最適化(GRPO)を用いた強化学習を,トークン群を最適化して構造的正当性や意味的整合性を強化し,動作トークン予測における累積誤差を緩和するポストトレーニング戦略として導入する。
大規模な実験により、UniMoは既存の統一モデルとタスク固有のモデルを大幅に上回り、動作生成と理解の両方において最先端のパフォーマンスを達成することが示されている。
関連論文リスト
- Stable Language Guidance for Vision-Language-Action Models [62.80963701282789]
残留セマンティックステアリング(Residual Semantic Steering)は、セマンティック実行から身体的余裕を逸脱する確率的フレームワークである。
RSSは最先端の堅牢性を実現し、敵対的な言語摂動の下でも性能を維持する。
論文 参考訳(メタデータ) (2026-01-07T16:16:10Z) - ReaLM: Residual Quantization Bridging Knowledge Graph Embeddings and Large Language Models [18.720486146234077]
大言語モデル(LLM)は知識グラフ補完(KGC)の強力なパラダイムとして登場した。
我々は、KG埋め込みとLLMトークン化のギャップを埋める、新しく効果的なフレームワークであるReaLMを提案する。
本稿では,ReaLMが最先端性能を実現し,構造化知識と大規模言語モデルとの整合性を確認した。
論文 参考訳(メタデータ) (2025-10-10T04:36:13Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Motion-R1: Chain-of-Thought Reasoning and Reinforcement Learning for Human Motion Generation [31.484189825477877]
Motion-R1は、Chain-of-Thoughtメカニズムを統合したモーション言語モデリングフレームワークである。
複雑なテキスト命令を論理的に構造化されたアクションパスに明示的に分解することで、モーションR1はモーション生成のための高レベルなセマンティックガイダンスを提供する。
複数のベンチマークデータセットに対する実験では、Motion-R1は最先端の手法と比較して、競争力や優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-12T05:21:43Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [56.574829311863446]
CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)における推論能力の向上によって広く認識されている。
我々は、CoTとその推論変異が、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを実証する。
パターンベースICLにおけるCoTの性能を駆動する明示的単純推論の基本的なハイブリッド機構を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z) - Multimodal Large Models Are Effective Action Anticipators [10.454791411515812]
ActionLLMは、ビデオシーケンスを逐次トークンとして扱う新しいアプローチであり、将来のアクションを予測するために大規模言語モデルを活用する。
我々のベースラインモデルは、将来のトークンを設定し、アクションチューニングモジュールを導入し、テキストデコーダ層を線形層に減らし、LCMアーキテクチャを単純化する。
LLMのコモンセンス推論をさらに活用するために、観察されたフレームに対するアクションカテゴリを予測し、シーケンシャルな意味理解を導くためにシーケンシャルなテキスト手がかりを使用する。
論文 参考訳(メタデータ) (2025-01-01T10:16:10Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。