論文の概要: PAS : Prelim Attention Score for Detecting Object Hallucinations in Large Vision--Language Models
- arxiv url: http://arxiv.org/abs/2511.11502v1
- Date: Fri, 14 Nov 2025 17:23:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.742754
- Title: PAS : Prelim Attention Score for Detecting Object Hallucinations in Large Vision--Language Models
- Title(参考訳): PAS : 大きな視覚モデルにおける物体の幻覚検出のための事前注意スコア
- Authors: Nhat Hoang-Xuan, Minh Vu, My T. Thai, Manish Bhattarai,
- Abstract要約: 大型視覚言語モデル(LVLM)は強力だが、物体の幻覚のため信頼性が低い。
本研究では、多くの幻覚予測において、LVLMは画像を無視し、代わりに新しいオブジェクトを推論するために以前に生成された出力(プリミティブ)トークンに依存することを示す。
プリリムトークン上の注意重みから計算される軽量でトレーニング不要な信号であるプリリム注意スコア(PAS)を導入する。
- 参考スコア(独自算出の注目度): 13.188115093909344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (LVLMs) are powerful, yet they remain unreliable due to object hallucinations. In this work, we show that in many hallucinatory predictions the LVLM effectively ignores the image and instead relies on previously generated output (prelim) tokens to infer new objects. We quantify this behavior via the mutual information between the image and the predicted object conditioned on the prelim, demonstrating that weak image dependence strongly correlates with hallucination. Building on this finding, we introduce the Prelim Attention Score (PAS), a lightweight, training-free signal computed from attention weights over prelim tokens. PAS requires no additional forward passes and can be computed on the fly during inference. Exploiting this previously overlooked signal, PAS achieves state-of-the-art object-hallucination detection across multiple models and datasets, enabling real-time filtering and intervention.
- Abstract(参考訳): 大型視覚言語モデル(LVLM)は強力だが、物体の幻覚のため信頼性が低い。
本研究では、多くの幻覚予測において、LVLMは画像を無視し、代わりに新しいオブジェクトを推論するために以前に生成された出力(プリミティブ)トークンに依存することを示す。
我々は,画像と予測対象との相互情報を用いて,この行動の定量化を行い,弱い画像依存が幻覚と強く相関していることを示す。
この発見に基づいて、プリリムトークン上の注意重みから計算される軽量でトレーニング不要な信号であるプリリム注意スコア(PAS)を導入する。
PASは追加のフォワードパスを必要とせず、推論中にオンザフライで計算できる。
PASは、これまで見過ごされていた信号を実行し、複数のモデルやデータセットにわたる最先端のオブジェクト幻覚検出を実現し、リアルタイムのフィルタリングと介入を可能にする。
関連論文リスト
- What Makes "Good" Distractors for Object Hallucination Evaluation in Large Vision-Language Models? [95.46087552542998]
本稿では,Halucination検索を用いたObject Probing Evaluationベンチマークを紹介する。
これは、大きな視覚ランゲージモデルで幻覚を誘発する最も誤解を招きやすいイントラクタを生成することを目的としている。
実験結果から, HOPEの精度は少なくとも9%低下し, 最先端のLVLMでは最大23%低下した。
論文 参考訳(メタデータ) (2025-08-03T03:11:48Z) - CAI: Caption-Sensitive Attention Intervention for Mitigating Object Hallucination in Large Vision-Language Models [60.0300765815417]
LVLM(Large Vision-Language Models)は、視覚情報から逸脱するコンテンツをしばしば生成し、物体の幻覚を引き起こす。
本稿では,CAI (Caption-sensitive Attention Intervention) を提案する。
論文 参考訳(メタデータ) (2025-06-30T07:52:36Z) - Hallucinatory Image Tokens: A Training-free EAZY Approach on Detecting and Mitigating Object Hallucinations in LVLMs [15.479587108655393]
LVLM(Large Vision-Language Models)は、まだオブジェクト幻覚の課題に直面している。
我々の研究は、画像入力源に焦点を移し、特定の画像トークンが幻覚にどのように貢献するかを調べる。
本稿では,幻覚器画像トークンをゼロにすることで,hAllucinationsを自動的に識別し,除去する新しい学習自由化手法EAZYを紹介する。
論文 参考訳(メタデータ) (2025-03-10T18:53:39Z) - Exploring Causes and Mitigation of Hallucinations in Large Vision Language Models [24.241691571850403]
Large Vision-Language Models (LVLM)は、画像エンコーダとLarge Language Models (LLM)を統合し、マルチモーダル入力を処理し、複雑な視覚タスクを実行する。
それらはしばしば、既存のオブジェクトや属性を記述することによって幻覚を生じさせ、その信頼性を損なう。
本研究では、画像キャプションにおける幻覚パターンを分析し、生成過程における全てのトークンが画像入力の影響を受けないことを示す。
論文 参考訳(メタデータ) (2025-02-24T05:00:52Z) - From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。
最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。
本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文 参考訳(メタデータ) (2024-10-09T11:46:32Z) - Mitigating Object Hallucination in MLLMs via Data-augmented Phrase-level Alignment [52.43197107069751]
MLLM(Multimodal Large Language Models)はしばしば幻覚と呼ばれる事実的不正確な情報を生成する。
そこで,本研究では,MLLMの命令調整による幻覚の緩和に応用可能な新しい損失であるData-augmented Phrase-level Alignment(DPA)を提案する。
論文 参考訳(メタデータ) (2024-05-28T23:36:00Z) - OPERA: Alleviating Hallucination in Multi-Modal Large Language Models
via Over-Trust Penalty and Retrospection-Allocation [124.9008419182485]
OPERA(Over-trust PenaltyとRetrospection-Allocation戦略に基づく新しいMLLM復号法)を提案する。
私たちのアプローチは、ほとんどの幻覚は自己注意行列の知識集約パターンと密接に結びついているという興味深い観察から始まります。
この観察に基づいて、OPERAは、ビーム探索復号時にモデルロジットにペナルティ項を導入し、オーバートラスト問題を緩和する。
論文 参考訳(メタデータ) (2023-11-29T18:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。