論文の概要: See Further, Think Deeper: Advancing VLM's Reasoning Ability with Low-level Visual Cues and Reflection
- arxiv url: http://arxiv.org/abs/2604.24339v1
- Date: Mon, 27 Apr 2026 11:31:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.923773
- Title: See Further, Think Deeper: Advancing VLM's Reasoning Ability with Low-level Visual Cues and Reflection
- Title(参考訳): より深く考える - 低レベルのビジュアルキューとリフレクションによるVLMの推論能力の向上
- Authors: Zhiheng Wu, Tong Wang, Shuning Wang, Naiming Liu, Yumeng Zhang,
- Abstract要約: 本稿では、視覚言語モデル(VLM)のための統合マルチモーダルインターリーブ推論フレームワーク textbfForeSight を提案する。
基本的な視覚情報を推論チェーンに統合する低レベルの視覚ツールセットを導入し、きめ細かい視覚的特徴の無視を緩和する。
マスクに基づく視覚フィードバック機構は、思考プロセスに視覚反射を組み込むことで、モデルが動的に再検査し、その答えを更新することを可能にする。
- 参考スコア(独自算出の注目度): 9.296609051671487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Vision-Language Models (VLMs) have benefited from Reinforcement Learning (RL) for enhanced reasoning. However, existing methods still face critical limitations, including the lack of low-level visual information and effective visual feedback. To address these problems, this paper proposes a unified multimodal interleaved reasoning framework \textbf{ForeSight}, which enables VLMs to \textbf{See Further} with low-level visual cues and \textbf{Think Deeper} with effective visual feedback. First, it introduces a set of low-level visual tools to integrate essential visual information into the reasoning chain, mitigating the neglect of fine-grained visual features. Second, a mask-based visual feedback mechanism is elaborated to incorporate visual reflection into the thinking process, enabling the model to dynamically re-examine and update its answers. Driven by RL, ForeSight learns to autonomously decide on tool invocation and answer verification, with the final answer accuracy as the reward signal. To evaluate the performance of the proposed framework, we construct a new dataset, Character and Grounding SalBench (CG-SalBench), based on the SalBench dataset. Experimental results demonstrate that the ForeSight-7B model significantly outperforms other models with the same parameter scale, and even surpasses the current SOTA closed-source models on certain metrics.
- Abstract(参考訳): 視覚言語モデル(VLM)の最近の進歩は、強化推論において強化学習(RL)の恩恵を受けている。
しかし、既存の手法は、低レベルの視覚情報や効果的な視覚フィードバックの欠如など、重要な制限に直面している。
これらの問題に対処するために、VLMが低レベルな視覚的手がかりを持つ「textbf{See further}」と効果的な視覚的フィードバックを持つ「textbf{Think Deeper}」を実現するための統合型マルチモーダルインターリーブ推論フレームワーク「textbf{ForeSight}」を提案する。
まず、重要な視覚情報を推論チェーンに統合する低レベルの視覚ツールセットを導入し、きめ細かい視覚的特徴の無視を緩和する。
第二に、マスクに基づく視覚フィードバック機構は、思考プロセスに視覚反射を組み込むことで、モデルが動的に再検査し、その答えを更新することを可能にする。
RLによって駆動されるForeSightは、ツールの呼び出しを自律的に決定し、最終的な回答精度を報奨信号として答えることを学ぶ。
提案するフレームワークの性能を評価するため,SalBenchデータセットに基づく新しいデータセットであるキャラクタとグラウンドング・サルベンチ(CG-SalBench)を構築した。
実験結果から、ForeSight-7Bモデルは、同じパラメータスケールで他のモデルよりも大幅に優れており、特定のメトリクス上での現在のSOTAクローズソースモデルよりもはるかに優れていることが示された。
関連論文リスト
- Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models [66.96421290733126]
VLA(Vision-Language-Action)モデルは、ロボット操作のための有望なパラダイムとして登場した。
我々はtextbfVision-Language Mixture-of-Transformers (VL-MoT) フレームワーク上に構築した textbfDeepVision-VLA を提案する。
DeepVision-VLAは、シミュレーションされたタスクと実世界のタスクで、それぞれ9.0%と7.5%の先行の最先端メソッドより優れている。
論文 参考訳(メタデータ) (2026-03-16T17:59:54Z) - Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models [21.588467647421865]
テキストのみの「スロー思考」推論の最近の進歩は、この能力を視覚言語モデル(VLM)に転送する努力を促している。
冷間開始のための推論データ構築と強化学習(RL)のための報酬設計に基づく視覚反射を改善する新しいVRM textbfReflection-Vを提案する。
textbfReflection-Vは、複数のビジュアル推論ベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-15T16:57:25Z) - Reinforced Visual Perception with Tools [66.79840157663237]
本稿では,GRPOに基づく新しいRLアルゴリズムを提案する。
本手法は,複数の知覚重度ベンチマークにおいて,最先端の性能を実現する。
我々のReVPT-3BとReVPT-7BはCV-Benchでインストラクションモデルを9.03%、9.44%上回っている。
論文 参考訳(メタデータ) (2025-09-01T17:57:49Z) - Learning Only with Images: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback [33.127607245587576]
本稿では,MLLMが生画像のみから複雑な視覚的推論を学習できるようにするフレームワークを提案する。
我々は、この相対的容易さが強化学習による最適化に理想的な報酬信号を提供することを示した。
RRVF訓練モデルは既存のMLLMを上回り、微調整ベースラインを監督するだけでなく、より優れた一般化を示す。
論文 参考訳(メタデータ) (2025-07-28T12:21:19Z) - Unveiling the Lack of LVLM Robustness to Fundamental Visual Variations: Why and Path Forward [1.7971686967440696]
V$2$R-Benchは、LVLMの視覚変化ロバスト性を評価するためのベンチマークフレームワークである。
本研究では,複雑な視覚言語タスクに優れた高度なモデルが,オブジェクト認識などの単純なタスクでは著しく性能が劣っていることを示す。
これらの脆弱性は、パイプラインアーキテクチャにおけるエラーの蓄積と、マルチモーダルアライメントの不十分に起因する。
論文 参考訳(メタデータ) (2025-04-23T14:01:32Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。