論文の概要: Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.12680v1
- Date: Thu, 17 Apr 2025 06:16:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 22:36:00.794275
- Title: Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning
- Title(参考訳): Embodied-R:強化学習による基礎モデルにおける身体的空間推論の活性化のための協調的枠組み
- Authors: Baining Zhao, Ziyou Wang, Jianjie Fang, Chen Gao, Fanhang Man, Jinqiang Cui, Xin Wang, Xinlei Chen, Yong Li, Wenwu Zhu,
- Abstract要約: Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。
わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。
Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
- 参考スコア(独自算出の注目度): 58.86928947970342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans can perceive and reason about spatial relationships from sequential visual observations, such as egocentric video streams. However, how pretrained models acquire such abilities, especially high-level reasoning, remains unclear. This paper introduces Embodied-R, a collaborative framework combining large-scale Vision-Language Models (VLMs) for perception and small-scale Language Models (LMs) for reasoning. Using Reinforcement Learning (RL) with a novel reward system considering think-answer logical consistency, the model achieves slow-thinking capabilities with limited computational resources. After training on only 5k embodied video samples, Embodied-R with a 3B LM matches state-of-the-art multimodal reasoning models (OpenAI-o1, Gemini-2.5-pro) on both in-distribution and out-of-distribution embodied spatial reasoning tasks. Embodied-R also exhibits emergent thinking patterns such as systematic analysis and contextual integration. We further explore research questions including response length, training on VLM, strategies for reward design, and differences in model generalization after SFT (Supervised Fine-Tuning) and RL training.
- Abstract(参考訳): 人間は、エゴセントリックなビデオストリームのような連続した視覚的な観察から空間的関係を知覚し、推論することができる。
しかし、事前訓練されたモデルがそのような能力、特に高レベルの推論をどのように獲得するかは、まだ不明である。
本稿では,認知のための大規模視覚言語モデル(VLM)と推論のための小規模言語モデル(LM)を組み合わせた協調フレームワークであるEmbodied-Rを紹介する。
Reinforcement Learning (RL) とシンク・アンサー・論理的整合性を考慮した新しい報奨システムを用いて、このモデルは限られた計算資源で遅い思考能力を達成する。
5kエンボディドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは、分布内および分布外両方の空間推論タスクで最先端のマルチモーダル推論モデル(OpenAI-o1, Gemini-2.5-pro)と一致した。
Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
さらに、応答長、VLMトレーニング、報酬設計戦略、SFT(Supervised Fine-Tuning)およびRLトレーニング後のモデル一般化の相違などの研究課題についても検討する。
関連論文リスト
- SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models [39.551767637896404]
本研究は、LVLM(Large Vision-Language Models)のトレーニングにおいて、支配的な教師付き微調整(SFT)、強化学習(RL)パラダイムを再考する。
SFTは、専門家モデルから模倣された擬似推論経路を誘導することにより、その後のRLを著しく損なう可能性があることを示す。
我々は,LVLMにおける推論を支援するために設計された,新しいマルチモーダルデータセットであるVLAA-Thinkingを紹介する。
論文 参考訳(メタデータ) (2025-04-10T16:54:05Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization [26.757458496178437]
視覚知覚と深い推論のギャップを埋めるために設計されたマルチモーダル推論モデルであるR1-Onevisionを紹介する。
我々はR1-Onevisionデータセットを構築し、多様なドメインにまたがる詳細かつステップバイステップのマルチモーダル推論アノテーションを提供する。
先進的推論を育成するために,教師付き微調整と強化学習によりR1-Onevisionモデルをさらに発展させる。
実験結果から,R1-OnevisionはGPT-4oやQwen2.5-VLなど,最先端のモデルよりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-03-13T17:56:05Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - Relational Concept Bottleneck Models [13.311396882130033]
概念ボトルネックモデル(CBM)は問題を解決するために設計されていない。
R-CBMは標準CBMとリレーショナルGNNの両方を表現できる。
特に,R-CBMが概念に基づく説明の生成を支援することを示す。
論文 参考訳(メタデータ) (2023-08-23T08:25:33Z) - Does Deep Learning Learn to Abstract? A Systematic Probing Framework [69.2366890742283]
抽象化はディープラーニングモデルにとって望ましい機能であり、具体的なインスタンスから抽象概念を誘導し、学習コンテキストを超えて柔軟に適用することを意味する。
本稿では,伝達可能性の観点から,ディープラーニングモデルの抽象化能力を検討するための体系的探索フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T12:50:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。