論文の概要: MoRL: Reinforced Reasoning for Unified Motion Understanding and Generation
- arxiv url: http://arxiv.org/abs/2602.14534v1
- Date: Mon, 16 Feb 2026 07:42:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.325806
- Title: MoRL: Reinforced Reasoning for Unified Motion Understanding and Generation
- Title(参考訳): MoRL:統合動作理解・生成のための強化推論
- Authors: Hongpeng Wang, Zeyu Zhang, Wenhao Li, Hao Tang,
- Abstract要約: そこで我々は,教師付き微調整と強化学習で訓練されたマルチモーダル・モーション・モデルであるMoRLを提案する。
タスク固有の報酬設計は、意味的アライメントと推論コヒーレンスを組み合わせて、身体的妥当性と生成のためのテキスト-モーション整合性を理解する。
HumanML3DとKIT-MLの実験により、MoRLは最先端のベースラインよりも大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 27.02285688108101
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human motion understanding and generation are crucial for vision and robotics but remain limited in reasoning capability and test-time planning. We propose MoRL, a unified multimodal motion model trained with supervised fine-tuning and reinforcement learning with verifiable rewards. Our task-specific reward design combines semantic alignment and reasoning coherence for understanding with physical plausibility and text-motion consistency for generation, improving both logical reasoning and perceptual realism. To further enhance inference, we introduce Chain-of-Motion (CoM), a test-time reasoning method that enables step-by-step planning and reflection. We also construct two large-scale CoT datasets, MoUnd-CoT-140K and MoGen-CoT-140K, to align motion sequences with reasoning traces and action descriptions. Experiments on HumanML3D and KIT-ML show that MoRL achieves significant gains over state-of-the-art baselines. Code: https://github.com/AIGeeksGroup/MoRL. Website: https://aigeeksgroup.github.io/MoRL.
- Abstract(参考訳): 人間の動きの理解と生成は視覚とロボティクスにとって重要であるが、推論能力とテストタイムプランニングには限界がある。
そこで我々は,教師付き微調整と強化学習で訓練されたマルチモーダル・モーション・モデルであるMoRLを提案する。
タスク固有の報酬設計は、意味的アライメントと推論コヒーレンスを組み合わせて、物理的妥当性とテキスト動作の一貫性を創出し、論理的推論と知覚的リアリズムの両方を改善する。
推論をさらに強化するために,ステップバイステップの計画とリフレクションを可能にするテスト時間推論手法であるChain-of-Motion(CoM)を導入する。
また,2つの大規模CoTデータセットであるMoUnd-CoT-140KとMoGen-CoT-140Kを構築し,動作系列を推論トレースや動作記述と整合させる。
HumanML3DとKIT-MLの実験により、MoRLは最先端のベースラインよりも大幅に向上することが示された。
コード:https://github.com/AIGeeksGroup/MoRL。
ウェブサイト:https://aigeeksgroup.github.io/MoRL.com
関連論文リスト
- Think Before You Move: Latent Motion Reasoning for Text-to-Motion Generation [37.496002022338395]
この解決策は、遅延システム2推論へのアーキテクチャシフトにある、と我々は主張する。
本稿では,2段階のThink-then-Act決定プロセスとして生成を再構成する潜在動作推論(LMR)を提案する。
T2M-GPT(discrete)とMotionStreamer(continuous)の2つの代表的なベースラインに対して実装することで、LMRの汎用性を実証する。
論文 参考訳(メタデータ) (2025-12-30T09:17:44Z) - Guiding the Inner Eye: A Framework for Hierarchical and Flexible Visual Grounded Reasoning [6.800544911407401]
GRiP(Guided Reasoning and Perception)は、視覚的根拠に基づく推論のための新しいトレーニングフレームワークである。
GRiPは、モデルの知覚的焦点と論理的経路を明確に導くことによって、堅牢で柔軟な視覚的基盤推論を育む。
GRiPは、非常に挑戦的なTreeBenchとV* Benchで、オープンソースモデルの最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-11-27T07:18:25Z) - VCoT-Grasp: Grasp Foundation Models with Visual Chain-of-Thought Reasoning for Language-driven Grasp Generation [67.98487725287835]
VCoT-Graspは、視覚的連鎖推論を取り入れたエンドツーエンドの把握基盤モデルであり、把握生成のための視覚的理解を強化する。
トレーニングのために、我々は167Kの合成画像と1.36Mのグリップを含む大規模なデータセットVCoT-GraspSetを洗練、導入した。
本手法は, 達成率を大幅に向上させ, 未知の物体, 背景, 邪魔者に効果的に一般化する。
論文 参考訳(メタデータ) (2025-10-07T11:50:26Z) - MoGIC: Boosting Motion Generation via Intention Understanding and Visual Context [16.15137439724085]
MoGICは、意図モデリングと視覚的先行をマルチモーダルモーション合成に統合するフレームワークである。
本研究では,条件付きトークンと動き列の効果的な局所的アライメントを実現するために,適応的スコープの混合注意機構を提案する。
実験の結果、FIDはHumanML3Dで38.6%、Mo440Hで34.6%減少し、軽量テキストヘッドによる動きキャプションにおけるLCMベースの手法を上回っている。
論文 参考訳(メタデータ) (2025-10-03T04:54:39Z) - MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO [87.52631406241456]
近年のテキスト・ツー・イメージシステムは、マルチモーダル入力や複雑な推論タスクの処理において制限に直面している。
我々は、強化学習による推論生成を取り入れ、これらの課題に対処する統合マルチモーダルな大規模言語モデルであるMind Omniを紹介する。
論文 参考訳(メタデータ) (2025-05-19T12:17:04Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Imagine while Reasoning in Space: Multimodal Visualization-of-Thought [70.74453180101365]
大型言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の複雑な推論を強化するために、CoTプロンプト(Chain-of-Thought)が有効であることが証明された。
我々は新しい推論パラダイムであるMultimodal Visualization-of-Thought (MVoT)を提案する。
MLLMにおいて、推論トレースの画像視覚化を生成することにより、視覚的思考を可能にする。
論文 参考訳(メタデータ) (2025-01-13T18:23:57Z) - ReinDiffuse: Crafting Physically Plausible Motions with Reinforced Diffusion Model [9.525806425270428]
本稿では、強化学習と運動拡散モデルを組み合わせることで、物理的に信頼できる人間の動きを生成するEmphReinDiffuseを提案する。
動作拡散モデルを用いてパラメータ化された動作分布を出力し、強化学習パラダイムに適合させる。
我々のアプローチは、HumanML3DとKIT-MLという2つの主要なデータセット上で、既存の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-09T16:24:11Z) - Fact :Teaching MLLMs with Faithful, Concise and Transferable Rationales [102.54274021830207]
MLLMの教えに忠実で簡潔で伝達しやすい多モーダル論理を生成するために設計された新しいパラダイムであるFactを紹介する。
プログラミングパラダイムからエンドツーエンドパラダイムに転送可能な合理性をフィルタリングして、転送可能性を保証する。
また,画像とテキストの相関性が高いため,幻覚の低減も図っている。
論文 参考訳(メタデータ) (2024-04-17T07:20:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。