論文の概要: Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.12132v1
- Date: Mon, 15 Sep 2025 16:57:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.413423
- Title: Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models
- Title(参考訳): もう一度見て、ゆっくり考える:視覚-言語モデルにおける視覚反射の強化
- Authors: Pu Jian, Junhong Wu, Wei Sun, Chen Wang, Shuo Ren, Jiajun Zhang,
- Abstract要約: テキストのみの「スロー思考」推論の最近の進歩は、この能力を視覚言語モデル(VLM)に転送する努力を促している。
冷間開始のための推論データ構築と強化学習(RL)のための報酬設計に基づく視覚反射を改善する新しいVRM textbfReflection-Vを提案する。
textbfReflection-Vは、複数のビジュアル推論ベンチマークで大幅に改善されている。
- 参考スコア(独自算出の注目度): 21.588467647421865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-only "slow-thinking" reasoning have prompted efforts to transfer this capability to vision-language models (VLMs), for training visual reasoning models (\textbf{VRMs}). owever, such transfer faces critical challenges: Effective "slow thinking" in VRMs requires \textbf{visual reflection}, the ability to check the reasoning process based on visual information. Through quantitative analysis, we observe that current VRMs exhibit limited visual reflection, as their attention to visual information diminishes rapidly with longer generated responses. To address this challenge, we propose a new VRM \textbf{Reflection-V}, which enhances visual reflection based on reasoning data construction for cold-start and reward design for reinforcement learning (RL). Firstly, we construct vision-centered reasoning data by leveraging an agent that interacts between VLMs and reasoning LLMs, enabling cold-start learning of visual reflection patterns. Secondly, a visual attention based reward model is employed during RL to encourage reasoning based on visual information. Therefore, \textbf{Reflection-V} demonstrates significant improvements across multiple visual reasoning benchmarks. Furthermore, \textbf{Reflection-V} maintains a stronger and more consistent reliance on visual information during visual reasoning, indicating effective enhancement in visual reflection capabilities.
- Abstract(参考訳): テキストのみの「スロー思考」推論の最近の進歩は、視覚的推論モデル(\textbf{VRMs})を訓練するための視覚言語モデル(VLMs)にこの機能を移す努力を促している。
VRMの効果的な「スローシンキング」には、視覚情報に基づいて推論プロセスをチェックする能力である「textbf{visual reflection}」が必要である。
定量的分析により,現在のVRMは,視覚情報への注意がより長い応答で急速に減少するので,限られた視覚反射を示すことが明らかとなった。
この課題に対処するために、冷間開始のための推論データ構築と強化学習のための報酬設計に基づく視覚反射を改善する新しいVRM \textbf{Reflection-V}を提案する。
まず、視覚中心の推論データを構築し、VLMとLPMを相互作用するエージェントを活用し、視覚反射パターンの冷間開始学習を可能にする。
次に、視覚情報に基づく推論を促進するために、視覚的注意に基づく報酬モデルを用いる。
したがって、 \textbf{Reflection-V} は複数の視覚的推論ベンチマークで大幅に改善されている。
さらに、‘textbf{Reflection-V} は視覚的推論における視覚情報へのより強固で一貫した依存を維持しており、視覚的反射能力の効果的な向上を示唆している。
関連論文リスト
- Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs [60.93949629734977]
モデル生成論理における幻覚を軽減するために,視覚コントラスト型自己学習共振器(VC-STaR)を提案する。
多様なVQAデータセットを収集し、マルチモーダルな類似性に応じてコントラストペアをキュレートし、VC-STaRを用いて合理性を生成する。
大規模な実験によると、VC-STaRは既存の自己改善アプローチを上回るだけでなく、SoTA視覚推論データセットで微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2026-03-03T03:18:31Z) - MIRROR: Multimodal Iterative Reasoning via Reflection on Visual Regions [42.03378622674476]
視覚領域の反射によるマルチモーダル反復推論のためのMIRRORフレームワークを提案する。
ビジュアルリフレクションをコアメカニズムとして埋め込むことで、MIRRORはドラフト、批評、地域ベースの検証、リビジョンを含むクローズドループプロセスとして定式化される。
一般的な視覚言語ベンチマークと代表的な視覚言語推論ベンチマークの両方の実験は、MIRRORが正確性を改善し、視覚幻覚を減らすことを示している。
論文 参考訳(メタデータ) (2026-02-21T07:56:59Z) - Do MLLMs Really See It: Reinforcing Visual Attention in Multimodal LLMs [55.61018839017648]
CoT(Chain-of- Thought)推論は、複雑な推論タスクにおいて、MLLM(Multimodal large language model)を大幅に改善した。
既存のアプローチは、主に長いテキスト推論軌道に依存し、安定した視覚的注意ポリシーを学ぶための限られたメカニズムを提供する。
地域レベルの視覚的注意に基づく報酬を導入する強化学習フレームワークを用いて訓練された視覚的推論モデルであるSAYOを提案する。
論文 参考訳(メタデータ) (2026-02-09T03:33:23Z) - Thinking with Deltas: Incentivizing Reinforcement Learning via Differential Visual Reasoning Policy [75.66913260900726]
検証可能なリワードによる強化学習は、大規模言語モデルにおいてかなり高度な推論能力を持っている。
既存のパラダイムは、テキスト中心の成果報酬によって推進され、モデルが視覚的知覚をバイパスすることを奨励します。
我々はtextbfDifferential Visual Reasoning Policy によって駆動されるフレームワーク Deltas を用いた textbfThinking を提案する。
論文 参考訳(メタデータ) (2026-01-11T08:25:34Z) - Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning [79.34909830834464]
VLM(Vision-Language Models)は様々な視覚的タスクで顕著な成功を収めているが、複雑な視覚環境では性能が低下している。
視覚的複雑性は、注意エントロピーと強く相関し、推論性能に悪影響を及ぼすことを示す。
本稿では,CARVE(Contrastive Attention Refinement for Visual Enhancement)を提案する。
論文 参考訳(メタデータ) (2025-09-08T09:20:04Z) - Self-Rewarding Vision-Language Model via Reasoning Decomposition [49.784411666601905]
VLM(Vision-Language Models)はしばしば視覚幻覚に悩まされ、実際に画像にないものや言語ショートカットが語られる。
本稿では,外部視覚監督に頼らずに視覚推論を改善する自己回帰手法であるVision-SR1を紹介する。
我々の実験は、Vision-SR1が視覚的推論を改善し、視覚幻覚を緩和し、言語ショートカットへの依存を減らすことを示した。
論文 参考訳(メタデータ) (2025-08-27T08:01:03Z) - Look-Back: Implicit Visual Re-focusing in MLLM Reasoning [15.478700750705643]
マルチモーダル大言語モデル (MLLM) は多モーダル推論において顕著な進歩を遂げている。
現在の手法では、推論プロセスのガイドとして視覚情報を明示的に注入することで、この問題に対処するのが一般的である。
MLLMを振り返って視覚情報を見るための暗黙のアプローチであるLook-Backを導入する。
論文 参考訳(メタデータ) (2025-07-02T14:59:35Z) - CAI: Caption-Sensitive Attention Intervention for Mitigating Object Hallucination in Large Vision-Language Models [60.0300765815417]
LVLM(Large Vision-Language Models)は、視覚情報から逸脱するコンテンツをしばしば生成し、物体の幻覚を引き起こす。
本稿では,CAI (Caption-sensitive Attention Intervention) を提案する。
論文 参考訳(メタデータ) (2025-06-30T07:52:36Z) - Qwen Look Again: Guiding Vision-Language Reasoning Models to Re-attention Visual Information [13.94596271015724]
長い推論は視覚的トークンを希釈し、視覚的情報の注意を減らし、幻覚を引き起こす可能性がある。
Qwen-LookAgain (Qwen-LA) は新たな視覚テキスト反映プロセスで、推論中にモデルが再認識されるように誘導する。
論文 参考訳(メタデータ) (2025-05-29T15:34:15Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。