論文の概要: Segmentation-Based Attention Entropy: Detecting and Mitigating Object Hallucinations in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.16558v1
- Date: Tue, 17 Mar 2026 14:19:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.324828
- Title: Segmentation-Based Attention Entropy: Detecting and Mitigating Object Hallucinations in Large Vision-Language Models
- Title(参考訳): セグメンテーションに基づく注意エントロピー:大規模視覚言語モデルにおける物体の幻覚の検出と緩和
- Authors: Jiale Song, Jiaxin Luo, Xue-song Tang, Kuangrong Hao, Mingbo Zhao,
- Abstract要約: LVLM(Large Vision-Language Models)は多くのマルチモーダルタスクにおいて高い性能を達成するが、オブジェクト幻覚は信頼性を著しく損なう。
現存する研究の多くは、過度に強い言語に幻覚をもたらし、視覚的根拠が不十分なテキストモダリティに焦点を当てている。
本研究では,意味的セグメンテーションを利用してオブジェクトレベルの意味空間における視覚的注意の不確かさを定量化する注意エントロピー(SAE)を提案する。
- 参考スコア(独自算出の注目度): 9.388076929154673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) achieve strong performance on many multimodal tasks, but object hallucinations severely undermine their reliability. Most existing studies focus on the text modality, attributing hallucinations to overly strong language priors and insufficient visual grounding. In contrast, we observe that abnormal attention patterns within the visual modality can also give rise to hallucinated objects. Building on this observation, we propose Segmentation-based Attention Entropy (SAE), which leverages semantic segmentation to quantify visual attention uncertainty in an object-level semantic space. Based on SAE, we further design a reliability score for hallucination detection and an SAE-guided attention adjustment method that modifies visual attention at inference time to mitigate hallucinations. We evaluate our approach on public benchmarks and in real embodied multimodal scenarios with quadruped robots. Experimental results show that SAE substantially reduces object hallucinations without any additional training cost, thereby enabling more trustworthy LVLM-driven perception and decision-making.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は多くのマルチモーダルタスクにおいて高い性能を達成するが、オブジェクト幻覚は信頼性を著しく損なう。
現存する研究の多くは、過度に強い言語に幻覚をもたらし、視覚的根拠が不十分なテキストモダリティに焦点を当てている。
対照的に、視覚的モダリティの異常な注意パターンは、幻覚的物体を生じさせる可能性がある。
本研究では,意味的セグメンテーションを利用してオブジェクトレベルのセグメンテーション空間における視覚的注意の不確実性を定量化するセグメンテーションに基づく注意エントロピー(SAE)を提案する。
SAEに基づいて、幻覚検出のための信頼性スコアと、推論時の視覚的注意を調整して幻覚を緩和するSAE誘導注意調整法をさらに設計する。
我々は,四足歩行ロボットを用いた公開ベンチマークと実実施型マルチモーダルシナリオにおけるアプローチを評価した。
実験の結果,SAEはトレーニングコストを伴わずに物体の幻覚を著しく低減し,より信頼性の高いLVLMによる知覚と意思決定を可能にした。
関連論文リスト
- On Epistemic Uncertainty of Visual Tokens for Object Hallucinations in Large Vision-Language Models [27.228426342808486]
我々は、視覚エンコーダ(VE)内の不確実な視覚トークンが、物体の幻覚に寄与する重要な要因であると主張している。
本稿では,VEのみを修飾することにより,物体の幻覚を緩和するための簡易かつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2025-10-10T05:12:52Z) - CAI: Caption-Sensitive Attention Intervention for Mitigating Object Hallucination in Large Vision-Language Models [60.0300765815417]
LVLM(Large Vision-Language Models)は、視覚情報から逸脱するコンテンツをしばしば生成し、物体の幻覚を引き起こす。
本稿では,CAI (Caption-sensitive Attention Intervention) を提案する。
論文 参考訳(メタデータ) (2025-06-30T07:52:36Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - Devils in Middle Layers of Large Vision-Language Models: Interpreting, Detecting and Mitigating Object Hallucinations via Attention Lens [7.806633929976787]
LVLM(Large Vision-Language Models)の幻覚は、その信頼性を著しく損なう。
本稿では,LVLMが視覚情報をどのように処理し,その処理が幻覚を引き起こすかについて述べる。
本稿では,様々な頭部に情報を統合することで視覚的注意を調節する簡易な推論時間手法を提案する。
論文 参考訳(メタデータ) (2024-11-23T03:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。