論文の概要: D-LEAF: Localizing and Correcting Hallucinations in Multimodal LLMs via Layer-to-head Attention Diagnostics
- arxiv url: http://arxiv.org/abs/2509.07864v1
- Date: Tue, 09 Sep 2025 15:51:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.384101
- Title: D-LEAF: Localizing and Correcting Hallucinations in Multimodal LLMs via Layer-to-head Attention Diagnostics
- Title(参考訳): D-LEAF:レイヤ・ツー・ヘッドアテンション診断によるマルチモーダルLDMにおける幻覚の局在と修正
- Authors: Tiancheng Yang, Lin Zhang, Jiaye Lin, Guimin Hu, Di Wang, Lijie Hu,
- Abstract要約: MLLM(Multimodal Large Language Models)は、画像キャプションや視覚的質問応答といったタスクにおいて高いパフォーマンスを達成するが、幻覚の傾向が残る。
それまでの作業では、視覚的な注意が不足している部分もあるが、既存の注意に基づく検知器と緩和は、通常、レイヤーと頭の間で均一な調整を施し、エラーの発生箇所を隠蔽する。
異常な層にフラグを付けるLIAE(Layer Image Attention Entropy)と,それらの層に注意を向けるIAF(Image Attention Focus)の2つの診断手法を紹介する。
タスクに依存しない動的層エントロピーと注意融合(D-LEAF)を提案する。
- 参考スコア(独自算出の注目度): 15.839644532620762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) achieve strong performance on tasks like image captioning and visual question answering, but remain prone to hallucinations, where generated text conflicts with the visual input. Prior work links this partly to insufficient visual attention, but existing attention-based detectors and mitigation typically apply uniform adjustments across layers and heads, obscuring where errors originate. In this paper, we first show these methods fail to accurately localize problematic layers. Then, we introduce two diagnostics: Layer Image Attention Entropy (LIAE) which flags anomalous layers, and Image Attention Focus (IAF) which scores attention heads within those layers. Analysis shows that LIAE pinpoints faulty layers and IAF reliably ranks heads that warrant correction. Guided by these signals, we propose Dynamic Layer-wise Entropy and Attention Fusion (D-LEAF), a task-agnostic, attention-guided method that dynamically localizes and corrects errors during inference with negligible overhead. Results show our D-LEAF delivers a 53% relative improvement on standard captioning benchmarks, and on VQA both accuracy and F1-score improve by approximately 4%, substantially suppressing hallucinations while preserving efficiency.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、画像キャプションや視覚的質問応答といったタスクにおいて高いパフォーマンスを達成するが、生成したテキストが視覚入力と矛盾する幻覚の傾向にある。
それまでの作業では、視覚的な注意が不足している部分もあるが、既存の注意に基づく検知器と緩和は、通常、レイヤーと頭の間で均一な調整を施し、エラーの発生箇所を隠蔽する。
本稿ではまず,これらの手法が問題のあるレイヤを正確にローカライズできないことを示す。
次に、異常なレイヤにフラグを付けるレイヤイメージアテンションエントロピー(LIAE)と、それらのレイヤ内のアテンションヘッドをスコアするイメージアテンションフォーカス(IAF)の2つの診断手法を紹介する。
解析によると、LIAEは欠陥のある層をピンポイントし、IAFは修正を保証している頭部を確実にランク付けしている。
これらの信号によって導かれる動的層エントロピー・アンド・アテンション・フュージョン(D-LEAF)は,タスクに依存しない,注意誘導型の手法である。
その結果,D-LEAFは標準キャプションベンチマークで53%,VQAではF1スコアで約4%改善し,効率を保ちながら幻覚を著しく抑制した。
関連論文リスト
- Dynamic Embedding of Hierarchical Visual Features for Efficient Vision-Language Fine-Tuning [5.85033069870214]
動的埋め込みと階層型視覚特徴の融合に基づく効率的な視覚言語微調整法を提案する。
少数のパラメータのみを微調整することで、DEHVFはクロスモーダル情報の正確なアライメントと補完を実現する。
論文 参考訳(メタデータ) (2025-08-25T03:57:46Z) - LISA: A Layer-wise Integration and Suppression Approach for Hallucination Mitigation in Multimodal Large Language Models [8.122679857175315]
MLLM(Multimodal Large Language Models)は、視覚言語タスクにおいて優れているが、オブジェクト幻覚の傾向が強い。
階層的変調と多層融合による生成一貫性を向上させるtextbfLISA を提案する。
実験によると、LISAは$mathrmCHAIR_I$で最大53.6%の幻覚を減少させ、POPE F1を4.5%改善する。
論文 参考訳(メタデータ) (2025-07-25T09:48:23Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Towards Anomaly-Aware Pre-Training and Fine-Tuning for Graph Anomaly Detection [59.042018542376596]
グラフ異常検出(GAD)は近年注目度が高まりつつあるが、2つの重要な要因があるため、依然として困難である。
Anomaly-Aware Pre-Training and Fine-Tuning (APF)は、GADの課題を軽減するためのフレームワークである。
10のベンチマークデータセットに関する総合的な実験は、最先端のベースラインと比較してAPFの優れたパフォーマンスを検証する。
論文 参考訳(メタデータ) (2025-04-19T09:57:35Z) - Mitigating Object Hallucinations in Large Vision-Language Models via Attention Calibration [22.39558434131574]
LVLM(Large Vision-Language Models)は、視覚的コンテンツと実際に一致しない応答を生成する。
我々は、単一の意味のない入力画像からバイアスを推定する、トレーニング不要なソリューションUniform Attention (UAC)を導入する。
また、画像中のオブジェクトがどこにあっても一貫した出力を強制する、微調整ソリューションであるDynamic Attention (DAC)を導入します。
論文 参考訳(メタデータ) (2025-02-04T03:27:38Z) - PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。