論文の概要: Capturing Gaze Shifts for Guidance: Cross-Modal Fusion Enhancement for VLM Hallucination Mitigation
- arxiv url: http://arxiv.org/abs/2510.22067v1
- Date: Fri, 24 Oct 2025 23:04:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.80921
- Title: Capturing Gaze Shifts for Guidance: Cross-Modal Fusion Enhancement for VLM Hallucination Mitigation
- Title(参考訳): 誘導のための迷路シフトの捕捉: VLM幻覚軽減のためのクロスモーダル核融合強化
- Authors: Zheng Qi, Chao Shang, Evangelia Spiliopoulou, Nikolaos Pappas,
- Abstract要約: 視覚言語モデル (VLM) はしばしば幻覚、すなわち視覚入力では実証できない内容を生成する。
本稿では, Gaze Shift-Guided Cross-Modal Fusion Enhancement (GIFT) という手法を提案する。
- 参考スコア(独自算出の注目度): 8.805397340243557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision language models (VLMs) often generate hallucination, i.e., content that cannot be substantiated by either textual or visual inputs. Prior work primarily attributes this to over-reliance on linguistic prior knowledge rather than visual inputs. Some methods attempt to mitigate hallucination by amplifying visual token attention proportionally to their attention scores. However, these methods overlook the visual attention sink problem, where attention is frequently misallocated to task-irrelevant visual regions, and neglect cross-modal fusion balance by enhancing only visual attention without adjusting attention to the user query. This can result in amplifying incorrect areas while failing to properly interpret the user query. To address these challenges, we propose a simple yet effective method called Gaze Shift-Guided Cross-modal Fusion Enhancement (GIFT). GIFT pre-computes a holistic visual saliency map by tracking positive changes in visual attention, or "gaze shifts", during user query comprehension, and leverages this map to amplify attention to both salient visual information and the user query at each decoding step. This reduces the impact of visual attention sink, as irrelevant tokens exhibit minimal shifts, while ensuring balanced cross-modal fusion for well-integrated representation. Extensive experiments show that GIFT effectively mitigates hallucination in VLMs across both generative and classification tasks, achieving up to 20.7% improvement over greedy decoding, while maintaining general vision-language performance with low computational overhead.
- Abstract(参考訳): 視覚言語モデル(VLM)は、しばしば幻覚、すなわちテキスト入力または視覚入力で裏付けられないコンテンツを生成する。
先行研究は主に、視覚的な入力よりも言語的な事前知識への過度な依存によるものである。
いくつかの方法は、視覚的トークンの注意を注意スコアに比例して増幅することにより幻覚を緩和しようとする。
しかし,これらの手法は,タスク非関連な視覚領域に注意を誤ることが多い視覚的注意シンク問題を見落とし,ユーザクエリに注意を向けることなく視覚的注意のみを増大させることにより,モーダル間融合バランスを無視する。
これにより、ユーザのクエリを適切に解釈できないまま、誤った領域を増幅することが可能になる。
これらの課題に対処するため,Gaze Shift-Guided Cross-modal Fusion Enhancement (GIFT) というシンプルな手法を提案する。
GIFTは、ユーザクエリの理解において、視覚的注意のポジティブな変化、すなわち「迷路シフト」を追跡することで、全体的視覚的サリエンシマップをプリコンプリートし、このマップを活用して、各デコードステップにおける視覚的情報とユーザクエリの両方に注意を向ける。
これにより、無関係なトークンが最小限のシフトを示すのに対して、視覚的注意シンクの影響を低減し、よく統合された表現のためのバランスの取れたクロスモーダル融合を保証する。
大規模な実験により、GIFTは、生成タスクと分類タスクの両方でVLMの幻覚を効果的に軽減し、グレディ復号よりも最大20.7%改善し、計算オーバーヘッドの少ない一般的な視覚言語のパフォーマンスを維持した。
関連論文リスト
- Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning [79.34909830834464]
VLM(Vision-Language Models)は様々な視覚的タスクで顕著な成功を収めているが、複雑な視覚環境では性能が低下している。
視覚的複雑性は、注意エントロピーと強く相関し、推論性能に悪影響を及ぼすことを示す。
本稿では,CARVE(Contrastive Attention Refinement for Visual Enhancement)を提案する。
論文 参考訳(メタデータ) (2025-09-08T09:20:04Z) - CAI: Caption-Sensitive Attention Intervention for Mitigating Object Hallucination in Large Vision-Language Models [60.0300765815417]
LVLM(Large Vision-Language Models)は、視覚情報から逸脱するコンテンツをしばしば生成し、物体の幻覚を引き起こす。
本稿では,CAI (Caption-sensitive Attention Intervention) を提案する。
論文 参考訳(メタデータ) (2025-06-30T07:52:36Z) - Visual Structures Helps Visual Reasoning: Addressing the Binding Problem in VLMs [9.406760867809124]
本稿では、簡易かつ効果的な介入であるVISER(Visual Input Structure for Enhanced Reasoning)を紹介する。
私たちは、コアの視覚的推論タスクに対して、実質的なパフォーマンス改善を実証的に示します。
低レベルの視覚構造は、構成的視覚的推論を改善するために強力で未探索の方向であることがわかった。
論文 参考訳(メタデータ) (2025-06-27T11:44:40Z) - Not All Tokens and Heads Are Equally Important: Dual-Level Attention Intervention for Hallucination Mitigation [46.3194503355054]
大規模視覚言語モデル(LVLM)は多様なマルチモーダルタスクにまたがる印象的な機能を示している。
視覚幻覚(VH)の影響を受けやすく、自信はあるが不正確な記述をしばしば生み出す。
推論中の注意パターンを直接調整することで幻覚を緩和するフレームワークであるVisFlowを紹介した。
論文 参考訳(メタデータ) (2025-06-14T19:10:22Z) - Through the Magnifying Glass: Adaptive Perception Magnification for Hallucination-Free VLM Decoding [12.82009632507056]
既存の視覚言語モデル(VLM)はしばしば視覚幻覚に悩まされ、生成した応答は視覚入力に基づかない不正確さを含む。
本稿では、注意に基づいて関連した視覚トークンを反復的に分離し、対応する領域を拡大する新しい視覚的復号化手法であるPerception Magnifier (PM)を提案する。
論文 参考訳(メタデータ) (2025-03-13T09:14:11Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。