論文の概要: VERA: Identifying and Leveraging Visual Evidence Retrieval Heads in Long-Context Understanding
- arxiv url: http://arxiv.org/abs/2602.10146v1
- Date: Mon, 09 Feb 2026 15:11:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.179528
- Title: VERA: Identifying and Leveraging Visual Evidence Retrieval Heads in Long-Context Understanding
- Title(参考訳): VERA:ロングコンテキスト理解における視覚的エビデンス検索ヘッドの同定と活用
- Authors: Rongcan Pei, Huan Li, Fang Guo, Qi Zhu,
- Abstract要約: 本稿では、視覚言語モデル(VLM)における長文処理を規定する内部メカニズムを解明する。
特定の視覚的エビデンス・レトリーヴァル(VER)ヘッド - 推論中に視覚的手がかりを見つけるのに重要な、まばらでダイナミックな注意のセット - を識別する。
本研究では、モデル不確実性を検出して視覚的証拠の明示的な動詞化を誘発する学習自由フレームワークVERA(Visual Evidence Retrieval Augmentation)を提案する。
- 参考スコア(独自算出の注目度): 14.53118053326179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Vision-Language Models (VLMs) have shown promise in textual understanding, they face significant challenges when handling long context and complex reasoning tasks. In this paper, we dissect the internal mechanisms governing long-context processing in VLMs to understand their performance bottlenecks. Through the lens of attention analysis, we identify specific Visual Evidence Retrieval (VER) Heads - a sparse, dynamic set of attention heads critical for locating visual cues during reasoning, distinct from static OCR heads. We demonstrate that these heads are causal to model performance; masking them leads to significant degradation. Leveraging this discovery, we propose VERA (Visual Evidence Retrieval Augmentation), a training-free framework that detects model uncertainty (i.e., entropy) to trigger the explicit verbalization of visual evidence attended by VER heads. Comprehensive experiments demonstrate that VERA significantly improves long-context understanding of open-source VLMs: it yields an average relative improvement of 21.3% on Qwen3-VL-8B-Instruct and 20.1% on GLM-4.1V-Thinking across five benchmarks.
- Abstract(参考訳): VLM(Vision-Language Models)はテキスト理解において有望であるが、長いコンテキストや複雑な推論タスクを扱う場合、大きな課題に直面している。
本稿では,VLMにおける長文処理を規定する内部メカニズムを解析し,その性能ボトルネックを解明する。
注視分析のレンズを通して、静的なOCRヘッドとは別の、推論中に視覚的手がかりを見つけるのに重要な、まばらでダイナミックな注目ヘッドである、特定の視覚的エビデンス検索(VER)ヘッドを識別する。
我々はこれらの頭部が性能をモデル化するための因果関係があることを示し、マスキングによって著しく劣化することを示した。
この発見を生かしたVERA(Visual Evidence Retrieval Augmentation)は,モデルの不確実性(エントロピー)を検出して,VERヘッドが関与する視覚的証拠の明示的な言語化を誘発する学習自由フレームワークである。
Qwen3-VL-8B-インストラクタで平均21.3%、GLM-4.1V-シンキングで平均20.1%の相対的な改善が得られる。
関連論文リスト
- Vision-aligned Latent Reasoning for Multi-modal Large Language Model [82.26044667101011]
VaLR(Vision-aligned Latent Reasoning)は、思考の連鎖の推論ステップの前に動的に視覚対応の潜在トークンを生成するフレームワークである。
VaLRは、MLLMの中間埋め込みを視覚エンコーダのものと整合させることにより、推論中の視覚的知識の保存を訓練する。
論文 参考訳(メタデータ) (2026-02-04T12:04:02Z) - Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents [52.14392337070763]
CFG-Benchは、きめ細かな動作インテリジェンスを体系的に評価する新しいベンチマークである。
CFG-Benchは、1,368のキュレートされたビデオと19,562の3つのモダリティからなる質問応答ペアからなる。
CFG-Benchに関する包括的評価から,MLLMの先導者は,物理的相互作用の詳細な指示を生成するのに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-11-24T02:02:29Z) - Understanding Language Prior of LVLMs by Contrasting Chain-of-Embedding [12.42420657573375]
大規模視覚言語モデル(LVLM)における言語の最初の体系的解析について述べる。
それぞれのモデルが視覚統合ポイント(VIP)を示しており、視覚情報が隠れた表現を意味的に再形成し、デコードに影響を与える重要な層である。
9つの現代のLVLMと6つのベンチマークにまたがる54のモデル-データセットの組み合わせにおいて、VIPは一貫して出現し、TVIは言語の強さを確実に予測することを示した。
論文 参考訳(メタデータ) (2025-09-27T02:12:05Z) - Caption This, Reason That: VLMs Caught in the Middle [3.4820139118440676]
VLM(Vision-Language Models)は近年,視覚的理解の進歩を目覚ましいものにしている。
カウントやリレーショナル推論といった視覚的なタスクでは、人間の能力が遅れている。
認識,注意,記憶など,コア認知軸に沿ったVLMのパフォーマンスを解析する。
論文 参考訳(メタデータ) (2025-05-24T14:25:48Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - Intriguing Properties of Large Language and Vision Models [18.449076451976236]
大規模言語とビジョンモデル(LLVM)は、その顕著な一般化性能のために、大きな注目と開発努力を受けている。
高度な推論タスクの達成にもかかわらず、基本的な知覚関連タスクのパフォーマンスは驚くほど低いままである。
LLVMの最も一般的なファミリー(LLaVA)を10評価ベンチマークで評価することで、この問題を調査する。
論文 参考訳(メタデータ) (2024-10-07T05:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。