論文の概要: Revealing and Enhancing Core Visual Regions: Harnessing Internal Attention Dynamics for Hallucination Mitigation in LVLMs
- arxiv url: http://arxiv.org/abs/2602.15556v1
- Date: Tue, 17 Feb 2026 13:08:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.070058
- Title: Revealing and Enhancing Core Visual Regions: Harnessing Internal Attention Dynamics for Hallucination Mitigation in LVLMs
- Title(参考訳): コア視覚領域の探索と拡張:LVLMにおける幻覚緩和のための内部注意ダイナミクスの調和
- Authors: Guangtao Lyu, Qi Liu, Chenghao Xu, Jiexi Yan, Muli Yang, Xueting Li, Fen Fang, Cheng Deng,
- Abstract要約: LVLMの内部ポジティブ・アテンション・ダイナミクス(PAD)は、注意シンクの歪みの下で自然に意味的にコアとなる視覚領域を明らかにする。
PADE(Positive Attention Dynamics Enhancement)は、意味的にコアとなる視覚領域を識別するためのPADマップを構築する訓練不要の注意介入である。
- 参考スコア(独自算出の注目度): 67.69730908817321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LVLMs have achieved strong multimodal reasoning capabilities but remain prone to hallucinations, producing outputs inconsistent with visual inputs or user instructions. Existing training-free methods, including contrastive decoding and auxiliary expert models, which incur several times more computational overhead and may introduce potential interference, as well as static internal signal enhancement, are often vulnerable to the attention sink phenomenon. We find that internal Positive Attention Dynamics (PAD) in LVLMs naturally reveal semantically core visual regions under the distortions of attention sinks. Based on this, we propose Positive Attention Dynamics Enhancement (PADE), a training-free attention intervention that constructs a PAD map to identify semantically core visual regions, applies per-head Median Absolute Deviation Scaling to adaptively control the intervention strength, and leverages System-Token Compensation to maintain attention to complex user instructions and support long-term output consistency. Experiments on multiple LVLMs and benchmarks show that PADE improves visual grounding and reduces hallucinations, validating the effectiveness of leveraging internal attention dynamics for reliable multimodal reasoning.
- Abstract(参考訳): LVLMは強力なマルチモーダル推論機能を備えているが、幻覚を起こしやすいままであり、視覚的な入力やユーザ指示と矛盾しない出力を生成する。
対照的な復号化や補助的な専門家モデルを含む既存の訓練なしの手法は、計算オーバーヘッドが数倍増加し、静的な内部信号の強化と同様に潜在的な干渉をもたらす可能性があるが、しばしばアテンションシンク現象に対して脆弱である。
LVLMの内部肯定的注意運動(PAD)は、注意シンクの歪みの下で自然に意味的に中核的な視覚領域を明らかにする。
そこで我々は,PADE (Positive Attention Dynamics Enhancement) を提案する。PADE (Positive Attention Dynamics Enhancement) は,PADマップを構築して意味的にコアとなる視覚領域を識別し,介入強度を適応的に制御し,複雑なユーザ指示への注意を保ち,長期出力の整合性をサポートする。
複数のLVLMおよびベンチマーク実験により、PADEは視覚的接地を改善し、幻覚を低減し、信頼性のあるマルチモーダル推論に内部の注意力学を活用する効果を検証した。
関連論文リスト
- Hallucination Begins Where Saliency Drops [18.189047289404325]
幻覚は、前の出力トークンが次のトークンの予測に対して低い正当性を示すときにしばしば起こる。
LVLMs-Saliencyは,各出力トークンの視覚的グラウンドリング強度を定量化する,勾配認識型診断フレームワークである。
本手法は, 流速とタスク性能を保ちながら幻覚率を大幅に低減し, 堅牢かつ解釈可能なソリューションを提供する。
論文 参考訳(メタデータ) (2026-01-28T05:50:52Z) - Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning [79.34909830834464]
VLM(Vision-Language Models)は様々な視覚的タスクで顕著な成功を収めているが、複雑な視覚環境では性能が低下している。
視覚的複雑性は、注意エントロピーと強く相関し、推論性能に悪影響を及ぼすことを示す。
本稿では,CARVE(Contrastive Attention Refinement for Visual Enhancement)を提案する。
論文 参考訳(メタデータ) (2025-09-08T09:20:04Z) - CAI: Caption-Sensitive Attention Intervention for Mitigating Object Hallucination in Large Vision-Language Models [60.0300765815417]
LVLM(Large Vision-Language Models)は、視覚情報から逸脱するコンテンツをしばしば生成し、物体の幻覚を引き起こす。
本稿では,CAI (Caption-sensitive Attention Intervention) を提案する。
論文 参考訳(メタデータ) (2025-06-30T07:52:36Z) - Mitigating Hallucinations via Inter-Layer Consistency Aggregation in Large Vision-Language Models [3.9464481148889354]
層集約(DCLA)による層間整合性を用いた復号化機構を提案する。
提案手法は,従来のレイヤから表現を集約することで動的セマンティック参照を構築し,階層間の一貫性を強制するために意味的に逸脱したレイヤを補正する。
MMEやPOPEのような幻覚ベンチマークの実験では、DCLAはLVLMの信頼性と性能を高めつつ、幻覚を効果的に低減することを示した。
論文 参考訳(メタデータ) (2025-05-18T10:15:42Z) - Interpretable Learning Dynamics in Unsupervised Reinforcement Learning [0.10832949790701804]
本稿では,教師なし強化学習(URL)エージェントの解釈可能性フレームワークを提案する。
DQN,RND,ICM,PPO,Transformer-RNDの5種類のエージェントを手続き的に生成する環境下で訓練した。
論文 参考訳(メタデータ) (2025-05-06T19:57:09Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。