論文の概要: Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.12132v1
- Date: Mon, 15 Sep 2025 16:57:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.413423
- Title: Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models
- Title(参考訳): もう一度見て、ゆっくり考える:視覚-言語モデルにおける視覚反射の強化
- Authors: Pu Jian, Junhong Wu, Wei Sun, Chen Wang, Shuo Ren, Jiajun Zhang,
- Abstract要約: テキストのみの「スロー思考」推論の最近の進歩は、この能力を視覚言語モデル(VLM)に転送する努力を促している。
冷間開始のための推論データ構築と強化学習(RL)のための報酬設計に基づく視覚反射を改善する新しいVRM textbfReflection-Vを提案する。
textbfReflection-Vは、複数のビジュアル推論ベンチマークで大幅に改善されている。
- 参考スコア(独自算出の注目度): 21.588467647421865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-only "slow-thinking" reasoning have prompted efforts to transfer this capability to vision-language models (VLMs), for training visual reasoning models (\textbf{VRMs}). owever, such transfer faces critical challenges: Effective "slow thinking" in VRMs requires \textbf{visual reflection}, the ability to check the reasoning process based on visual information. Through quantitative analysis, we observe that current VRMs exhibit limited visual reflection, as their attention to visual information diminishes rapidly with longer generated responses. To address this challenge, we propose a new VRM \textbf{Reflection-V}, which enhances visual reflection based on reasoning data construction for cold-start and reward design for reinforcement learning (RL). Firstly, we construct vision-centered reasoning data by leveraging an agent that interacts between VLMs and reasoning LLMs, enabling cold-start learning of visual reflection patterns. Secondly, a visual attention based reward model is employed during RL to encourage reasoning based on visual information. Therefore, \textbf{Reflection-V} demonstrates significant improvements across multiple visual reasoning benchmarks. Furthermore, \textbf{Reflection-V} maintains a stronger and more consistent reliance on visual information during visual reasoning, indicating effective enhancement in visual reflection capabilities.
- Abstract(参考訳): テキストのみの「スロー思考」推論の最近の進歩は、視覚的推論モデル(\textbf{VRMs})を訓練するための視覚言語モデル(VLMs)にこの機能を移す努力を促している。
VRMの効果的な「スローシンキング」には、視覚情報に基づいて推論プロセスをチェックする能力である「textbf{visual reflection}」が必要である。
定量的分析により,現在のVRMは,視覚情報への注意がより長い応答で急速に減少するので,限られた視覚反射を示すことが明らかとなった。
この課題に対処するために、冷間開始のための推論データ構築と強化学習のための報酬設計に基づく視覚反射を改善する新しいVRM \textbf{Reflection-V}を提案する。
まず、視覚中心の推論データを構築し、VLMとLPMを相互作用するエージェントを活用し、視覚反射パターンの冷間開始学習を可能にする。
次に、視覚情報に基づく推論を促進するために、視覚的注意に基づく報酬モデルを用いる。
したがって、 \textbf{Reflection-V} は複数の視覚的推論ベンチマークで大幅に改善されている。
さらに、‘textbf{Reflection-V} は視覚的推論における視覚情報へのより強固で一貫した依存を維持しており、視覚的反射能力の効果的な向上を示唆している。
関連論文リスト
- Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning [79.34909830834464]
VLM(Vision-Language Models)は様々な視覚的タスクで顕著な成功を収めているが、複雑な視覚環境では性能が低下している。
視覚的複雑性は、注意エントロピーと強く相関し、推論性能に悪影響を及ぼすことを示す。
本稿では,CARVE(Contrastive Attention Refinement for Visual Enhancement)を提案する。
論文 参考訳(メタデータ) (2025-09-08T09:20:04Z) - Self-Rewarding Vision-Language Model via Reasoning Decomposition [49.784411666601905]
VLM(Vision-Language Models)はしばしば視覚幻覚に悩まされ、実際に画像にないものや言語ショートカットが語られる。
本稿では,外部視覚監督に頼らずに視覚推論を改善する自己回帰手法であるVision-SR1を紹介する。
我々の実験は、Vision-SR1が視覚的推論を改善し、視覚幻覚を緩和し、言語ショートカットへの依存を減らすことを示した。
論文 参考訳(メタデータ) (2025-08-27T08:01:03Z) - Look-Back: Implicit Visual Re-focusing in MLLM Reasoning [15.478700750705643]
マルチモーダル大言語モデル (MLLM) は多モーダル推論において顕著な進歩を遂げている。
現在の手法では、推論プロセスのガイドとして視覚情報を明示的に注入することで、この問題に対処するのが一般的である。
MLLMを振り返って視覚情報を見るための暗黙のアプローチであるLook-Backを導入する。
論文 参考訳(メタデータ) (2025-07-02T14:59:35Z) - CAI: Caption-Sensitive Attention Intervention for Mitigating Object Hallucination in Large Vision-Language Models [60.0300765815417]
LVLM(Large Vision-Language Models)は、視覚情報から逸脱するコンテンツをしばしば生成し、物体の幻覚を引き起こす。
本稿では,CAI (Caption-sensitive Attention Intervention) を提案する。
論文 参考訳(メタデータ) (2025-06-30T07:52:36Z) - Qwen Look Again: Guiding Vision-Language Reasoning Models to Re-attention Visual Information [13.94596271015724]
長い推論は視覚的トークンを希釈し、視覚的情報の注意を減らし、幻覚を引き起こす可能性がある。
Qwen-LookAgain (Qwen-LA) は新たな視覚テキスト反映プロセスで、推論中にモデルが再認識されるように誘導する。
論文 参考訳(メタデータ) (2025-05-29T15:34:15Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。