論文の概要: D-LEAF: Localizing and Correcting Hallucinations in Multimodal LLMs via Layer-to-head Attention Diagnostics
- arxiv url: http://arxiv.org/abs/2509.07864v1
- Date: Tue, 09 Sep 2025 15:51:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.384101
- Title: D-LEAF: Localizing and Correcting Hallucinations in Multimodal LLMs via Layer-to-head Attention Diagnostics
- Title(参考訳): D-LEAF:レイヤ・ツー・ヘッドアテンション診断によるマルチモーダルLDMにおける幻覚の局在と修正
- Authors: Tiancheng Yang, Lin Zhang, Jiaye Lin, Guimin Hu, Di Wang, Lijie Hu,
- Abstract要約: MLLM(Multimodal Large Language Models)は、画像キャプションや視覚的質問応答といったタスクにおいて高いパフォーマンスを達成するが、幻覚の傾向が残る。
それまでの作業では、視覚的な注意が不足している部分もあるが、既存の注意に基づく検知器と緩和は、通常、レイヤーと頭の間で均一な調整を施し、エラーの発生箇所を隠蔽する。
異常な層にフラグを付けるLIAE(Layer Image Attention Entropy)と,それらの層に注意を向けるIAF(Image Attention Focus)の2つの診断手法を紹介する。
タスクに依存しない動的層エントロピーと注意融合(D-LEAF)を提案する。
- 参考スコア(独自算出の注目度): 15.839644532620762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) achieve strong performance on tasks like image captioning and visual question answering, but remain prone to hallucinations, where generated text conflicts with the visual input. Prior work links this partly to insufficient visual attention, but existing attention-based detectors and mitigation typically apply uniform adjustments across layers and heads, obscuring where errors originate. In this paper, we first show these methods fail to accurately localize problematic layers. Then, we introduce two diagnostics: Layer Image Attention Entropy (LIAE) which flags anomalous layers, and Image Attention Focus (IAF) which scores attention heads within those layers. Analysis shows that LIAE pinpoints faulty layers and IAF reliably ranks heads that warrant correction. Guided by these signals, we propose Dynamic Layer-wise Entropy and Attention Fusion (D-LEAF), a task-agnostic, attention-guided method that dynamically localizes and corrects errors during inference with negligible overhead. Results show our D-LEAF delivers a 53% relative improvement on standard captioning benchmarks, and on VQA both accuracy and F1-score improve by approximately 4%, substantially suppressing hallucinations while preserving efficiency.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、画像キャプションや視覚的質問応答といったタスクにおいて高いパフォーマンスを達成するが、生成したテキストが視覚入力と矛盾する幻覚の傾向にある。
それまでの作業では、視覚的な注意が不足している部分もあるが、既存の注意に基づく検知器と緩和は、通常、レイヤーと頭の間で均一な調整を施し、エラーの発生箇所を隠蔽する。
本稿ではまず,これらの手法が問題のあるレイヤを正確にローカライズできないことを示す。
次に、異常なレイヤにフラグを付けるレイヤイメージアテンションエントロピー(LIAE)と、それらのレイヤ内のアテンションヘッドをスコアするイメージアテンションフォーカス(IAF)の2つの診断手法を紹介する。
解析によると、LIAEは欠陥のある層をピンポイントし、IAFは修正を保証している頭部を確実にランク付けしている。
これらの信号によって導かれる動的層エントロピー・アンド・アテンション・フュージョン(D-LEAF)は,タスクに依存しない,注意誘導型の手法である。
その結果,D-LEAFは標準キャプションベンチマークで53%,VQAではF1スコアで約4%改善し,効率を保ちながら幻覚を著しく抑制した。
関連論文リスト
- Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection [52.5174167737992]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定することを目的としている。
本稿では,MLLMに基づくVADを受動的に読み上げから内部表現を積極的に操り,修正するSteerVADを提案する。
本手法は、トレーニングデータの1%しか必要としないチューニングフリーアプローチにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-27T13:48:50Z) - Seeing Right but Saying Wrong: Inter- and Intra-Layer Refinement in MLLMs without Training [7.511262066889113]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにまたがる強力な機能を示す。
深い層は正しい視覚領域に付随する可能性があるが、最終的な予測は以前の層からの騒々しい注意によってしばしば誤解される。
我々は、追加の訓練をせずに視覚的理解を高めるデュアルパースペクティブな復号化戦略であるDualPDを提案する。
論文 参考訳(メタデータ) (2026-01-12T09:34:20Z) - Revealing Perception and Generation Dynamics in LVLMs: Mitigating Hallucinations via Validated Dominance Correction [59.801614364841775]
LVLM(Large Vision-Language Models)は目覚ましい能力を示しているが、幻覚は依然として持続的な課題である。
本研究は,LVLMにおける視覚知覚とトークン生成の内部進化の系統的解析である。
我々は,VDC(d Dominance Correction)戦略を考案し,不要なトークンを検出し,検証済みトークンに置き換えて出力信頼性を向上させる。
論文 参考訳(メタデータ) (2025-12-21T17:05:42Z) - Investigate the Low-level Visual Perception in Vision-Language based Image Quality Assessment [7.969076042774561]
低レベルの歪み知覚タスクを導入し、モデルが特定の歪みタイプを分類する必要がある。
解析の結果,MLLMは構造的にそのような歪みを表現できるが,トレーニングテンプレートに適合しがちであることがわかった。
視覚エンコーダのアライメントを改善することで、歪み認識精度が劇的に向上し、14.92%から84.43%に向上することを示す。
論文 参考訳(メタデータ) (2025-12-10T12:06:47Z) - Towards Fine-Grained Vision-Language Alignment for Few-Shot Anomaly Detection [65.29550320117526]
我々はFinGrainedADという新しいフレームワークを提案し、異常なローカライゼーション性能を改善する。
実験により、提案されたFinGrainedADは、数ショット設定で全体的なパフォーマンスが優れていることが示された。
論文 参考訳(メタデータ) (2025-10-30T13:09:00Z) - Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection [49.26064449816502]
本研究では,テキスト・視覚バイアスと共起バイアスに対処するために,グラディエントベースのインフルエンス・アウェア制約付きデコーディング(GACD)手法を提案する。
GACDは幻覚を効果的に低減し、MLLM出力の視覚的接地を改善する。
論文 参考訳(メタデータ) (2025-09-03T08:13:52Z) - Dynamic Embedding of Hierarchical Visual Features for Efficient Vision-Language Fine-Tuning [5.85033069870214]
動的埋め込みと階層型視覚特徴の融合に基づく効率的な視覚言語微調整法を提案する。
少数のパラメータのみを微調整することで、DEHVFはクロスモーダル情報の正確なアライメントと補完を実現する。
論文 参考訳(メタデータ) (2025-08-25T03:57:46Z) - LISA: A Layer-wise Integration and Suppression Approach for Hallucination Mitigation in Multimodal Large Language Models [8.122679857175315]
MLLM(Multimodal Large Language Models)は、視覚言語タスクにおいて優れているが、オブジェクト幻覚の傾向が強い。
階層的変調と多層融合による生成一貫性を向上させるtextbfLISA を提案する。
実験によると、LISAは$mathrmCHAIR_I$で最大53.6%の幻覚を減少させ、POPE F1を4.5%改善する。
論文 参考訳(メタデータ) (2025-07-25T09:48:23Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Towards Anomaly-Aware Pre-Training and Fine-Tuning for Graph Anomaly Detection [59.042018542376596]
グラフ異常検出(GAD)は近年注目度が高まりつつあるが、2つの重要な要因があるため、依然として困難である。
Anomaly-Aware Pre-Training and Fine-Tuning (APF)は、GADの課題を軽減するためのフレームワークである。
10のベンチマークデータセットに関する総合的な実験は、最先端のベースラインと比較してAPFの優れたパフォーマンスを検証する。
論文 参考訳(メタデータ) (2025-04-19T09:57:35Z) - Mitigating Object Hallucinations in Large Vision-Language Models via Attention Calibration [22.39558434131574]
LVLM(Large Vision-Language Models)は、視覚的コンテンツと実際に一致しない応答を生成する。
我々は、単一の意味のない入力画像からバイアスを推定する、トレーニング不要なソリューションUniform Attention (UAC)を導入する。
また、画像中のオブジェクトがどこにあっても一貫した出力を強制する、微調整ソリューションであるDynamic Attention (DAC)を導入します。
論文 参考訳(メタデータ) (2025-02-04T03:27:38Z) - PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。