論文の概要: Attention-space Contrastive Guidance for Efficient Hallucination Mitigation in LVLMs
- arxiv url: http://arxiv.org/abs/2601.13707v1
- Date: Tue, 20 Jan 2026 08:04:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.216238
- Title: Attention-space Contrastive Guidance for Efficient Hallucination Mitigation in LVLMs
- Title(参考訳): LVLMの効率的な幻覚緩和のための注意空間コントラスト誘導
- Authors: Yujin Jo, Sangyoon Bae, Taesup Kim,
- Abstract要約: 大きな視覚言語モデルにおける幻覚は、言語が視覚的証拠を支配するときにしばしば起こる。
本稿では,視覚言語と言語のみの注意経路を構築するために,自己注意層内で動作するシングルパス機構であるContrastive Guidance(ACG)を提案する。
ACGは、計算コストを大幅に削減しつつ、最先端の忠実さとキャプション品質を達成する。
- 参考スコア(独自算出の注目度): 9.043999205886658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucinations in large vision-language models (LVLMs) often arise when language priors dominate over visual evidence, causing object misidentification and visually inconsistent descriptions. We address this issue by framing hallucination mitigation as contrastive guidance, steering generation toward visually grounded and semantically faithful text. This approach regulates the model's internal behavior by reducing over-dependence on language priors and contrasting visually grounded with language-only representations. We propose Attention-space Contrastive Guidance (ACG), a single-pass mechanism that operates within self-attention layers to construct both vision-language and language-only attention paths in a single forward computation. This integration enables computationally efficient guidance directly embedded in the model's representation contextualization. To correct approximation bias introduced by the single-pass formulation, we further apply an orthogonalized correction that removes components aligned with the language-only path, selectively amplifying visual contributions. Experiments on the CHAIR and POPE benchmarks show that ACG achieves state-of-the-art faithfulness and caption quality while significantly reducing computational cost. Our method establishes a principled and efficient alternative, reducing latency by up to 2x compared to prior contrastive decoding methods that require multiple forward passes.
- Abstract(参考訳): 大型視覚言語モデル(LVLM)における幻覚は、言語が視覚的証拠を優先的に支配するときにしばしば発生し、物体の誤認や視覚的に矛盾する記述を引き起こす。
我々は,幻覚の緩和を対照的な指導として捉え,視覚的根拠と意味論的忠実なテキストへの操舵生成によってこの問題に対処する。
このアプローチは、言語優先の過度な依存性を減らし、言語のみの表現と視覚的に対比することで、モデルの内部動作を規制する。
本研究では,自己注意層内で動作する単一パス機構であるAttention-space Contrastive Guidance (ACG)を提案する。
この統合により、モデル表現の文脈化に直接埋め込まれた計算効率の良いガイダンスが可能になる。
単一パスの定式化によって導入された近似バイアスを補正するために,言語のみの経路に沿った成分を除去し,視覚的コントリビューションを選択的に増幅する直交補正を適用する。
CHAIRとPOPEベンチマークの実験により、ACGは最先端の忠実さとキャプションの品質を実現し、計算コストを大幅に削減した。
提案手法は,複数のフォワードパスを必要とする従来のコントラスト復号法と比較して,レイテンシを最大2倍に削減する,原理的かつ効率的な代替手段を確立する。
関連論文リスト
- Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection [49.26064449816502]
本研究では,テキスト・視覚バイアスと共起バイアスに対処するために,グラディエントベースのインフルエンス・アウェア制約付きデコーディング(GACD)手法を提案する。
GACDは幻覚を効果的に低減し、MLLM出力の視覚的接地を改善する。
論文 参考訳(メタデータ) (2025-09-03T08:13:52Z) - Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [51.93737995405164]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。
本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。
提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-26T08:36:10Z) - Cross-Image Contrastive Decoding: Precise, Lossless Suppression of Language Priors in Large Vision-Language Models [13.17978215666921]
言語先行性への過度依存は、LVLM(Large Vision-Language Models)における幻覚の主要な原因である
最近の研究では、訓練なしの解として対照的な復号化が検討されている。
我々は、非関連画像をコントラスト視覚入力として利用する、シンプルで効果的なトレーニング不要なクロスイメージコントラストデコーディング(CICD)を提案する。
論文 参考訳(メタデータ) (2025-05-15T18:16:56Z) - PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training [56.172959986096316]
本稿では,マルチモーダル大規模言語モデル(MLLM)における幻覚の課題を解決することを目的とする。
HalFscoreは言語グラフ上に構築された新しい計量であり、密度の高いキャプションの精度と完全性の両方を粒度レベルで評価するように設計されている。
PerturboLLaVAは、生成されたキャプションの忠実度を著しく改善し、マルチモーダル幻覚に対する既存のアプローチよりも優れている。
論文 参考訳(メタデータ) (2025-03-09T07:07:03Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Mitigating Hallucinations in Large Vision-Language Models via Summary-Guided Decoding [14.701135083174918]
LVLM(Large Vision-Language Models)は、視覚入力から詳細でコヒーレントな応答を生成する。
言語に対する依存度が高すぎるため、幻覚を起こす傾向にある。
そこで我々は,SumGD (Slide-Guided Decoding) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T08:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。