論文の概要: Visual Attention Drifts,but Anchors Hold:Mitigating Hallucination in Multimodal Large Language Models via Cross-Layer Visual Anchors
- arxiv url: http://arxiv.org/abs/2603.25088v1
- Date: Thu, 26 Mar 2026 06:49:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.141144
- Title: Visual Attention Drifts,but Anchors Hold:Mitigating Hallucination in Multimodal Large Language Models via Cross-Layer Visual Anchors
- Title(参考訳): 視覚的注意ドリフト, しかしアンカーホールド:クロス層視覚アンカーを用いた多モーダル大言語モデルにおける幻覚の緩和
- Authors: Chengxu Yang, Jingling Yuan, Chuang Hu, Jiawei Jiang,
- Abstract要約: マルチモーダル大言語モデルは、しばしばオブジェクト幻覚に悩まされる。
視覚的特徴の階層的進化について検討し,幻覚は初期からの視覚的ノイズに回帰する深層注意から生じることを明らかにする。
そこで本研究では,Cross-Layer Visual Anchors(CLVA)について述べる。
- 参考スコア(独自算出の注目度): 19.631318297977693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models often suffer from object hallucination. While existing research utilizes attention enhancement and visual retracing, we find these works lack sufficient interpretability regarding attention drift in final model stages. In this paper, we investigate the layer wise evolution of visual features and discover that hallucination stems from deep layer attention regressing toward initial visual noise from early layers. We observe that output reliability depends on acquiring visual anchors at intermediate layers rather than final layers. Based on these insights, we propose CLVA, which stands for Cross-Layer Visual Anchors, a training free method that reinforces critical mid layer features while suppressing regressive noise. This approach effectively pulls deep layer attention back to correct visual regions by utilizing essential anchors captured from attention dynamics. We evaluate our method across diverse architectures and benchmarks, demonstrating outstanding performance without significant increase in computational time and GPU memory.
- Abstract(参考訳): マルチモーダル大言語モデルは、しばしばオブジェクト幻覚に悩まされる。
既存の研究は、注意力増強と視覚的リトラシングを生かしているが、最終モデル段階での注意の漂流に関する十分な解釈性は欠如している。
本稿では,視覚的特徴の階層的進化を考察し,幻覚は初期層からの視覚的ノイズに回帰する深層注意から生じることを明らかにする。
出力信頼性は最終層ではなく中間層における視覚的アンカーの獲得に依存する。
これらの知見に基づき, CLVA(Cross-Layer Visual Anchors) を提案する。
このアプローチは、注意力学から捉えた本質的なアンカーを利用することで、ディープレイヤの注意を視覚領域の正しさに効果的に引き戻す。
計算時間やGPUメモリを大幅に向上させることなく,様々なアーキテクチャやベンチマークにまたがって本手法を評価した。
関連論文リスト
- Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation [51.743225614196774]
マルチモーダル大言語モデル (MLLM) は視覚言語推論において顕著な進歩を遂げている。
彼らは幻覚に弱いままであり、そこで生成されたコンテンツは視覚的証拠から逸脱する。
近年の視覚強調法では、復号時に視覚トークンを補強することでこの問題に対処しようとしている。
本稿では,MLLMのトレーニングフリーフレームワークであるAdaptive Visual Reinforcement (AIR)を提案する。
論文 参考訳(メタデータ) (2026-02-27T14:18:51Z) - Sparrow: Text-Anchored Window Attention with Visual-Semantic Glimpsing for Speculative Decoding in Video LLMs [28.766303423132722]
Video Large Language Models (Vid-LLMs) は通常、キーバリューキャッシュの爆発とコンテキストウィンドウのミスマッチによる注意の希釈と負の視覚的利得の罠に陥る。
本研究では,まず,隠れ状態の再利用によって視覚的に認識可能なウィンドウアテンションを利用して,視覚的計算を対象モデルに完全にオフロードするSparrowフレームワークを提案する。
実験の結果,25kの視覚トークンでも平均2.82倍のスピードアップを実現し,長いシーケンスでの性能劣化を効果的に解消できることがわかった。
論文 参考訳(メタデータ) (2026-02-17T02:51:36Z) - SAVE: Sparse Autoencoder-Driven Visual Information Enhancement for Mitigating Object Hallucination [48.601385640941935]
Sparse Autoencoderの潜在機能に沿ってモデルを操ることで幻覚を緩和するフレームワークであるSAVEを提案する。
バイナリオブジェクトプレゼンス質問回答プローブは、モデルの視覚情報処理を最も示唆するSAEの特徴を識別する。
SAVEはシンプルな設計で、標準的なベンチマークで最先端のトレーニングフリーメソッドより優れている。
論文 参考訳(メタデータ) (2025-12-08T17:20:07Z) - Unleashing the Intrinsic Visual Representation Capability of Multimodal Large Language Models [58.91911788912665]
より識別的な視覚表現の学習において,MLLMの学習を容易にする新しい学習フレームワークであるLaVerを提案する。
本手法はMLLMに対して直接視覚的アクティベーションを提供し,視覚的アサインメントが増大し,視覚情報の利用が向上したことを示す。
論文 参考訳(メタデータ) (2025-12-06T04:20:13Z) - PruneHal: Reducing Hallucinations in Multi-modal Large Language Models through Adaptive KV Cache Pruning [87.35309934860938]
大型言語モデル(MLLM)における幻覚は、視覚トークンに割り当てられた注意不足と強く関連している。
我々は、適応的なKVキャッシュプルーニングを活用し、重要な視覚情報に焦点をあてるトレーニングフリーでシンプルで効果的な方法である textbfPruneHal を提案する。
論文 参考訳(メタデータ) (2025-10-22T02:41:07Z) - Mitigating Hallucination in Multimodal LLMs with Layer Contrastive Decoding [18.980167452015966]
我々はLayerCD(Layer Contrastive Decoding)と呼ばれる単純な手法を提案する。
LayerCDは、異なるレベルの視覚的特徴から生成された出力分布を対比することで幻覚を除去することを目的としている。
2つのベンチマークで広範な実験を行い、LayerCDが現在の最先端を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-29T17:59:16Z) - IKOD: Mitigating Visual Attention Degradation in Large Vision-Language Models [20.036659182106806]
本稿では,LVLM(Large Vision-Language Models)が,シーケンス長の増大に伴って幻覚が増大する長期バイアスを示すことを示す。
我々は、より画像中心のシーケンスを生成する協調デコーディング戦略である、イメージアテンション誘導キー値マージcOllaborative Decoding (IKOD)を提案する。
論文 参考訳(メタデータ) (2025-08-05T14:05:15Z) - MINT: Mitigating Hallucinations in Large Vision-Language Models via Token Reduction [6.416957959150438]
幻覚は、高い信頼性を必要とする領域におけるLVLM(Large Vision-Language Models)の適用を妨げる。
tokeN再帰による幻覚を緩和する訓練不要な復号法であるMINTを提案する。
提案手法は,従来のモデルに比べて知覚障害による幻覚の緩和効果が4%向上する。
論文 参考訳(メタデータ) (2025-02-02T08:34:57Z) - EAGLE: Enhanced Visual Grounding Minimizes Hallucinations in Instructional Multimodal Models [54.234657224615354]
大規模な言語モデルと視覚変換器は、ダウンストリームタスクにおいて大きな転送可能性を実現する、印象的なゼロショット機能を示している。
膨大な画像と言語の事前学習を取り入れているにもかかわらず、これらのマルチモーダルアーキテクチャは、画像データの基底真理から逸脱する応答をしばしば生成する。
幻覚を緩和する現在の方法は、一般的に言語コンポーネントの正規化、融合モジュールの改善、視覚表現を改善するために複数の視覚エンコーダのアンサンブルに焦点を当てている。
従来のコントラスト付き事前学習タスクを手軽に書き換えることで,教育用マルチモーダルアーキテクチャに組み込まれたビジュアルエンコーダが,追加の指導訓練を行なわずに実現可能であることを示す。
論文 参考訳(メタデータ) (2025-01-06T00:39:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。