論文の概要: Seeing but Not Believing: Probing the Disconnect Between Visual Attention and Answer Correctness in VLMs
- arxiv url: http://arxiv.org/abs/2510.17771v1
- Date: Mon, 20 Oct 2025 17:31:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.541963
- Title: Seeing but Not Believing: Probing the Disconnect Between Visual Attention and Answer Correctness in VLMs
- Title(参考訳): 見るが信じない:VLMにおける視覚的注意と答えの正しさの解離の探索
- Authors: Zhining Liu, Ziyi Chen, Hui Liu, Chen Luo, Xianfeng Tang, Suhang Wang, Joy Zeng, Zhenwei Dai, Zhan Shi, Tianxin Wei, Benoit Dumoulin, Hanghang Tong,
- Abstract要約: VLM(Vision-Language Models)は、視覚的質問応答などのマルチモーダルなタスクにおいて強力な結果を得るが、正しい視覚的証拠が存在する場合でも失敗する。
浅層は主にテキストに焦点が当てられているのに対し、深層はわずかながら確実に局所化されたエビデンス領域に寄与していることを示す。
我々は,選択的注意に基づくマスキングによる深層エビデンス領域の強調を行う推論時間介入を導入する。
- 参考スコア(独自算出の注目度): 72.8370367403852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) achieve strong results on multimodal tasks such as visual question answering, yet they can still fail even when the correct visual evidence is present. In this work, we systematically investigate whether these failures arise from not perceiving the evidence or from not leveraging it effectively. By examining layer-wise attention dynamics, we find that shallow layers focus primarily on text, while deeper layers sparsely but reliably attend to localized evidence regions. Surprisingly, VLMs often perceive the visual evidence when outputting incorrect answers, a phenomenon we term ``seeing but not believing'' that widely exists in major VLM families. Building on this, we introduce an inference-time intervention that highlights deep-layer evidence regions through selective attention-based masking. It requires no training and consistently improves accuracy across multiple families, including LLaVA, Qwen, Gemma, and InternVL. These results show that VLMs encode reliable evidence internally but under-utilize it, making such signals explicit can bridge the gap between perception and reasoning, advancing the diagnostic understanding and reliability of VLMs.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚的質問応答などのマルチモーダルなタスクにおいて強力な結果を得るが、正しい視覚的証拠が存在する場合でも失敗する。
本研究は,これらの障害が証拠を知覚しないか,効果的に活用しないのかを系統的に検討する。
レイヤワイド・アテンションのダイナミクスを調べることで,浅層は主にテキストに焦点をあてる一方で,より深い層は局所的なエビデンス領域に適していることがわかった。
意外なことに、VLMは誤った答えを出す際に視覚的証拠を知覚することが多く、この現象は、主要なVLMファミリーに広く存在している「見るが信じない」現象である。
これに基づいて、我々は、選択的注意に基づくマスキングにより、深層エビデンス領域をハイライトする推論時間介入を導入する。
トレーニングを必要とせず、LLaVA、Qwen、Gemma、InternVLなど、複数のファミリーにわたる精度を一貫して改善する。
これらの結果から, VLMは内部で信頼性のある証拠を符号化するが, 未利用であるため, 知覚と推論のギャップを埋めることができ, VLMの診断的理解と信頼性が向上することが示された。
関連論文リスト
- [De|Re]constructing VLMs' Reasoning in Counting [2.1856941852799134]
制御された実験条件下での計数作業における7つの最先端ビジョンランゲージモデル(VLM)の推論技術について検討した。
レイヤワイズ解析により、エラーは最終層表現の出力空間への誤ったマッピングによるものであることが明らかになった。
対象とするトレーニングでは,出力層のみの微調整により,最大21%の精度が向上した。
論文 参考訳(メタデータ) (2025-10-22T13:08:47Z) - Can VLMs Recall Factual Associations From Visual References? [30.821053378797007]
視覚言語モデル(VLM)のマルチモーダルグラウンドリングにおける系統的欠陥を同定する。
VLMは、実体のイメージ表現に頼らざるを得ず、現実の知識を思い出す能力を持っている。
このようなリンク障害は、モデル内部状態における異なるパターンの表現と相関していることを示す。
論文 参考訳(メタデータ) (2025-08-22T16:47:37Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [69.56484419619919]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。
本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。
本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文 参考訳(メタデータ) (2024-12-15T09:10:46Z) - Have the VLMs Lost Confidence? A Study of Sycophancy in VLMs [44.56018149475948]
梅毒症は視覚言語モデル(VLM)に重大な課題をもたらす幻覚である
そこで我々は,シコファンシーを緩和するために,プロンプト,教師付き微調整,DPOに基づく訓練と手法を用いた合成データセットを提案する。
以上の結果から, モデル上層部では, 梅毒予防能力が顕著であることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-15T05:48:14Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。