論文の概要: Causally-Grounded Dual-Path Attention Intervention for Object Hallucination Mitigation in LVLMs
- arxiv url: http://arxiv.org/abs/2511.09018v1
- Date: Thu, 13 Nov 2025 01:26:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.359485
- Title: Causally-Grounded Dual-Path Attention Intervention for Object Hallucination Mitigation in LVLMs
- Title(参考訳): LVLMにおける物体の幻覚軽減のための因果的デュアルパス注意介入
- Authors: Liu Yu, Zhonghao Chen, Ping Kuang, Zhikun Feng, Fan Zhou, Lan Wang, Gillian Dobbie,
- Abstract要約: 構造因果グラフを用いて幻覚過程をモデル化する枠組みを提案する。
本稿では、復号時のモダリティ寄与不均衡を定量化する新しい計量であるVTACRを紹介する。
トークン・レイヤ・アテンションを動的に調整する微細言語によるアテンション介入機構を設計する。
- 参考スコア(独自算出の注目度): 26.144870818163387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object hallucination remains a critical challenge in Large Vision-Language Models (LVLMs), where models generate content inconsistent with visual inputs. Existing language-decoder based mitigation approaches often regulate visual or textual attention independently, overlooking their interaction as two key causal factors. To address this, we propose Owl (Bi-mOdal attention reWeighting for Layer-wise hallucination mitigation), a causally-grounded framework that models hallucination process via a structural causal graph, treating decomposed visual and textual attentions as mediators. We introduce VTACR (Visual-to-Textual Attention Contribution Ratio), a novel metric that quantifies the modality contribution imbalance during decoding. Our analysis reveals that hallucinations frequently occur in low-VTACR scenarios, where textual priors dominate and visual grounding is weakened. To mitigate this, we design a fine-grained attention intervention mechanism that dynamically adjusts token- and layer-wise attention guided by VTACR signals. Finally, we propose a dual-path contrastive decoding strategy: one path emphasizes visually grounded predictions, while the other amplifies hallucinated ones -- letting visual truth shine and hallucination collapse. Experimental results on the POPE and CHAIR benchmarks show that Owl achieves significant hallucination reduction, setting a new SOTA in faithfulness while preserving vision-language understanding capability. Our code is available at https://github.com/CikZ2023/OWL
- Abstract(参考訳): オブジェクト幻覚はLVLM(Large Vision-Language Models)において重要な課題であり、モデルが視覚入力と矛盾するコンテンツを生成する。
既存の言語デコーダに基づく緩和アプローチは、視覚的またはテキスト的注意を独立に制御し、それらの相互作用を2つの主要な因果要因と見なす。
この問題を解決するために,構造因果グラフを用いて幻覚過程をモデル化し,分解した視覚的・テキスト的注意をメディエータとして扱う因果的基礎的な枠組みであるOwl(Bi-mOdal attention re Weighting for Layer-wise Hallucination mitigation)を提案する。
VTACR(Visual-to-Textual Attention Contribution Ratio)は,デコード時のモダリティコントリビューションの不均衡を定量化する手法である。
分析の結果,低VTACRシナリオでは幻覚が頻繁に発生し,テキストの先行が支配的であり,視覚的接地が弱まることが明らかとなった。
これを軽減するために,VTACR信号によって誘導されるトークン・レイヤ・アテンションを動的に調整する微細なアテンション介入機構を設計する。
最後に、両経路のコントラストデコーディング戦略を提案する。一方の経路は視覚的に接地された予測を強調し、他方の経路は幻覚を増幅し、視覚的真実を輝かせ、幻覚を崩壊させる。
POPEおよびCHAIRベンチマークによる実験結果から、Owlは視覚言語理解能力を維持しつつ、新しいSOTAを忠実に設定し、幻覚の低減を実現していることが示された。
私たちのコードはhttps://github.com/CikZ2023/OWLで利用可能です。
関連論文リスト
- Mitigating Hallucinations in Vision-Language Models through Image-Guided Head Suppression [16.465703269782654]
大型視覚言語モデル (LVLM) はしばしば幻覚に悩まされ、視覚的文脈と一致しないテキストを生成する。
推論時間介入による幻覚の低減を目的とした既存の手法は、遅延を著しく増加させる。
本稿では,タスクに依存しない注意誘導型頭部抑制戦略であるSPINについて述べる。
論文 参考訳(メタデータ) (2025-05-22T09:00:57Z) - Mitigating Hallucinations in Large Vision-Language Models by Adaptively Constraining Information Flow [32.039946174953236]
大きな視覚言語モデルは、人間の言語を通して視覚情報を理解する大きな可能性を示している。
それらは、物体の幻覚に苦しむ傾向があり、すなわち、生成された画像記述には、画像の中に存在しない物体が含まれている。
本稿では,幻覚雑音の導入による過信を軽減するため,変分情報ボトルネック(VIB)を提案する。
論文 参考訳(メタデータ) (2025-02-28T05:56:23Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - Mitigating Object Hallucination via Concentric Causal Attention [71.27325347912823]
物体の幻覚は回転位置と密接に結びついていることを示す。
RoPEは、広く採用されている位置依存モデリング設計である。
簡易かつ効果的な位置アライメント戦略であるConcentric Causal Attention (CCA)を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:54:53Z) - From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。
最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。
本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文 参考訳(メタデータ) (2024-10-09T11:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。