論文の概要: Mitigating Object Hallucinations in LVLMs via Attention Imbalance Rectification
- arxiv url: http://arxiv.org/abs/2603.24058v1
- Date: Wed, 25 Mar 2026 08:06:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.202715
- Title: Mitigating Object Hallucinations in LVLMs via Attention Imbalance Rectification
- Title(参考訳): 注意不均衡整流によるLVLMの物体幻覚の緩和
- Authors: Han Sun, Qin Li, Peixin Wang, Min Zhang,
- Abstract要約: LVLM(Large Vision-Language Models)のオブジェクト幻覚は、現実世界のアプリケーションにおける信頼性を著しく損なう。
本稿では,注意重みを再配置し,注意分布を調整し,モダリティワイドおよびトークンワイドの不均衡を是正する軽量な復号時間介入法であるAttention Im Balance Rectification (AIR)を提案する。
- 参考スコア(独自算出の注目度): 23.673836358196468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object hallucination in Large Vision-Language Models (LVLMs) severely compromises their reliability in real-world applications, posing a critical barrier to their deployment in high-stakes scenarios such as autonomous driving and medical image analysis. Through systematic empirical investigation, we identify that the imbalanced attention allocation, both across modalities (i.e., vision and language) and within modalities (among individual tokens), exhibits a strong causal correlation with the occurrence of object hallucination. Leveraging this insight, we introduce a novel concept termed attention imbalance, which not only quantifies the degree of attention disparity but also visually delineates the underlying patterns (e.g., over-attentiveness to irrelevant language tokens or under-attentiveness to discriminative visual features) that drive object hallucination. To mitigate object hallucination, we further propose Attention Imbalance Rectification (AIR), a lightweight decoding-time intervention method that reallocates attention weights and adjusts attention distributions to rectify modality-wise and token-wise imbalances. Extensive evaluations on four mainstream LVLMs and three benchmarks (CHAIR, POPE, and MM-Vet) with seven baselines demonstrate that AIR consistently reduces object hallucination rates, achieving up to a 35.1% reduction compared to the baselines, while improving up to 15.9% of LVLMs' general capability across diverse vision-language tasks.
- Abstract(参考訳): LVLM(Large Vision-Language Models)のオブジェクト幻覚は、現実のアプリケーションにおける信頼性を著しく損なうものであり、自律運転や医用画像解析といった高度なシナリオにおいて、それらが展開する上で重要な障壁となっている。
体系的な経験的調査により、モダリティ(視覚と言語)とモダリティ(個々のトークン)の両方にわたる不均衡な注意配分が、物体幻覚の発生と強い因果相関を示すことが明らかとなった。
この知見を生かして、注意不均衡という新しい概念を導入し、注意差の程度を定量化するだけでなく、対象の幻覚を駆動する基礎となるパターン(例えば、無関係な言語トークンに対する過度な注意力、識別的な視覚特徴に対する過度な注意力)を視覚的に記述する。
物体の幻覚を軽減するために,注意重みを再配置し,注意分布を調整し,モダリティワイドおよびトークンワイドの不均衡を是正する軽量な復号時間介入法である注意不均衡補正法(AIR)を提案する。
7つのベースラインを持つ4つの主要なLVLMと3つのベンチマーク(CHAIR、POPE、MM-Vet)に対する広範囲な評価は、AIRが一貫してオブジェクトの幻覚率を減少させ、ベースラインと比較して35.1%の削減を実現し、また様々な視覚言語タスクにおけるLVLMの一般的な能力の15.9%の改善を実現していることを示している。
関連論文リスト
- Segmentation-Based Attention Entropy: Detecting and Mitigating Object Hallucinations in Large Vision-Language Models [9.388076929154673]
LVLM(Large Vision-Language Models)は多くのマルチモーダルタスクにおいて高い性能を達成するが、オブジェクト幻覚は信頼性を著しく損なう。
現存する研究の多くは、過度に強い言語に幻覚をもたらし、視覚的根拠が不十分なテキストモダリティに焦点を当てている。
本研究では,意味的セグメンテーションを利用してオブジェクトレベルの意味空間における視覚的注意の不確かさを定量化する注意エントロピー(SAE)を提案する。
論文 参考訳(メタデータ) (2026-03-17T14:19:22Z) - Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation [51.743225614196774]
マルチモーダル大言語モデル (MLLM) は視覚言語推論において顕著な進歩を遂げている。
彼らは幻覚に弱いままであり、そこで生成されたコンテンツは視覚的証拠から逸脱する。
近年の視覚強調法では、復号時に視覚トークンを補強することでこの問題に対処しようとしている。
本稿では,MLLMのトレーニングフリーフレームワークであるAdaptive Visual Reinforcement (AIR)を提案する。
論文 参考訳(メタデータ) (2026-02-27T14:18:51Z) - System-Mediated Attention Imbalances Make Vision-Language Models Say Yes [15.24790310403934]
視覚言語モデル(VLM)の幻覚は、一般に、入力モダリティ(システム、画像、テキスト)間での注意の非バランスな割り当てと結びついている。
本研究では,これらの不均衡を機能的に冗長なシステム重みに起因した,より包括的でシステム経由の会計評価を行う。
画像およびテキスト入力に対するシステムモダリティからの注意を因果的に再分配することは、このバイアスを著しく抑制し、しばしば既存のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2026-01-18T14:34:39Z) - Causally-Grounded Dual-Path Attention Intervention for Object Hallucination Mitigation in LVLMs [26.144870818163387]
構造因果グラフを用いて幻覚過程をモデル化する枠組みを提案する。
本稿では、復号時のモダリティ寄与不均衡を定量化する新しい計量であるVTACRを紹介する。
トークン・レイヤ・アテンションを動的に調整する微細言語によるアテンション介入機構を設計する。
論文 参考訳(メタデータ) (2025-11-12T06:13:26Z) - On Epistemic Uncertainty of Visual Tokens for Object Hallucinations in Large Vision-Language Models [27.228426342808486]
我々は、視覚エンコーダ(VE)内の不確実な視覚トークンが、物体の幻覚に寄与する重要な要因であると主張している。
本稿では,VEのみを修飾することにより,物体の幻覚を緩和するための簡易かつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2025-10-10T05:12:52Z) - Visual hallucination detection in large vision-language models via evidential conflict [24.465497252040294]
Dempster-Shafer理論(DST)に基づく不確実性推定によるLVLMの視覚幻覚検出法
そこで本研究では,LVLMの視覚幻覚検出手法として,DST(Dempster-Shafer theory)を用いた第1次視覚幻覚検出法を提案する。
論文 参考訳(メタデータ) (2025-06-24T11:03:10Z) - Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。
我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。
この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文 参考訳(メタデータ) (2025-03-11T11:52:37Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。