論文の概要: Guiding the Inner Eye: A Framework for Hierarchical and Flexible Visual Grounded Reasoning
- arxiv url: http://arxiv.org/abs/2511.22172v1
- Date: Thu, 27 Nov 2025 07:18:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.438958
- Title: Guiding the Inner Eye: A Framework for Hierarchical and Flexible Visual Grounded Reasoning
- Title(参考訳): 内眼のガイド:階層的でフレキシブルな視覚的接地推論のためのフレームワーク
- Authors: Zhaoyang Wei, Wenchao Ding, Yanchao Hao, Xi Chen,
- Abstract要約: GRiP(Guided Reasoning and Perception)は、視覚的根拠に基づく推論のための新しいトレーニングフレームワークである。
GRiPは、モデルの知覚的焦点と論理的経路を明確に導くことによって、堅牢で柔軟な視覚的基盤推論を育む。
GRiPは、非常に挑戦的なTreeBenchとV* Benchで、オープンソースモデルの最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 6.800544911407401
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Models capable of "thinking with images" by dynamically grounding their reasoning in visual evidence represent a major leap in multimodal AI. However, replicating and advancing this ability is non-trivial, with current methods often trapped between the instability of end-to-end reinforcement learning (RL) and the rigidity of supervised fine-tuning (SFT). This leads to models that either struggle to learn or lack the cognitive flexibility required for complex, real-world scenes. To navigate this dilemma, we introduce GRiP (Guided Reasoning and Perception), a novel two-stage training framework that cultivates robust and flexible visual grounded reasoning by explicitly guiding the model's perceptual focus and logical pathways. GRiP's core lies in its cognitive-enhanced RL stage, which features two key innovations: (1) a Salience-Weighted IoU Reward that incentivizes the model to prioritize the localization of mission-critical objects over trivial distractors, and (2) a Multi-Heuristic Reward that encourages cognitive flexibility by rewarding diverse yet logically valid reasoning pathways. Initialized from the Qwen2.5-VL-7B model, GRiP demonstrates significant performance gains across multiple challenging benchmarks. It achieves state-of-the-art results among open-source models on the highly challenging TreeBench and V* Bench, proving its effectiveness in complex visual reasoning. Our work demonstrates that moving beyond simplistic rewards and instead guiding models with cognitively-inspired signals for what to see and how to think is crucial for unlocking the next level of multimodal intelligence. The code will be made publicly available.
- Abstract(参考訳): 視覚的エビデンスに推論を動的に基礎付けることによって「イメージで考える」ことができるモデルは、マルチモーダルAIにおける大きな飛躍を表している。
しかし、この能力の複製と進歩は簡単ではなく、現在の手法は、エンドツーエンド強化学習(RL)の不安定性と教師付き微調整(SFT)の剛性の間にしばしば閉じ込められている。
これは学習に苦労するモデルや、複雑な現実世界のシーンに必要な認知的柔軟性を欠くモデルにつながります。
このジレンマをナビゲートするために、GRiP(Guided Reasoning and Perception)という新しい2段階のトレーニングフレームワークを紹介します。
GRiPの中核は認知強化RL段階にあり、(1)ミッションクリティカルな物体の局所化を重要視するSalience-Weighted IoU Reward、(2)多様な論理的に妥当な推論経路を報酬することで認知の柔軟性を促進するMulti-Huristic Rewardである。
Qwen2.5-VL-7Bモデルから初期化され、GRiPは複数の挑戦的なベンチマークで大きなパフォーマンス向上を示した。
これは、非常に挑戦的なTreeBenchとV* Benchのオープンソースモデルにおける最先端の結果を達成し、複雑な視覚的推論におけるその効果を証明している。
私たちの研究は、単純な報酬を超えて、何を見るか、どのように考えるかが認知にインスパイアされたシグナルでモデルを導くことが、次のレベルのマルチモーダルインテリジェンスをアンロックするのに不可欠であることを実証しています。
コードは公開されます。
関連論文リスト
- Monet: Reasoning in Latent Visual Space Beyond Images and Language [55.424507246294326]
視覚的推論を推し進める上で有効なパラダイムとして「画像で考える」が登場している。
既存の方法は、人間のような抽象的な視覚的思考に欠ける。
Monetは、マルチモーダルな大規模言語モデルを潜在視覚空間内で直接推論できるトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-11-26T13:46:39Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models [17.431298099935344]
大規模言語モデル(LLM)において、推論が重要な機能として現れている。
近年の研究では、視覚言語モデル(VLM)への推論の拡張が試みられている。
本研究は、マルチモーダル推論の二重性を明らかにし、他の基本的な視覚的問題に対する認識障害につながった。
本稿では,視覚的接地軌道に対する推論過程を明確に把握する,シンプルかつ効果的な手法であるビジョン・アンコレッド・ポリシー・オプティマイズ(VAPO)を提案する。
論文 参考訳(メタデータ) (2025-09-30T06:37:47Z) - Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。
わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。
Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文 参考訳(メタデータ) (2025-04-17T06:16:11Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning of Vision Language Models [42.75418134743927]
Reason-RFTは視覚的推論のための2段階強化微調整フレームワークである。
第一に、CoTデータをキュレートしたスーパービジョンファインチューニング(SFT)は、ビジョンランゲージモデル(VLM)の推論ポテンシャルを活性化する
第2に、グループ相対政策最適化(GRPO)に基づく強化学習は、複数の推論応答対を生成し、ドメインシフトへの適応性を高める。
論文 参考訳(メタデータ) (2025-03-26T17:38:06Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。