論文の概要: AdaVBoost: Mitigating Hallucinations in LVLMs via Token-Level Adaptive Visual Attention Boosting
- arxiv url: http://arxiv.org/abs/2602.13600v1
- Date: Sat, 14 Feb 2026 04:44:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.230777
- Title: AdaVBoost: Mitigating Hallucinations in LVLMs via Token-Level Adaptive Visual Attention Boosting
- Title(参考訳): AdaVBoost:Token-Level Adaptive Visual Attention BoostingによるLVLMの幻覚の緩和
- Authors: Jiacheng Zhang, Feng Liu, Chao Du, Tianyu Pang,
- Abstract要約: LVLM(Large Vision-Language Models)における幻覚を緩和するための有望な方向として、視覚的注意力増強が出現している。
本稿では,AdaVBoostを提案する。AdaVBoostはトークンレベルの視覚的注意力を高めるフレームワークで,各世代でどれだけの注意力を高めるかを適応的に決定する。
AdaVBoostは,複数のLVLMおよび幻覚ベンチマークにおいて,ベースライン法よりも有意に優れていることを示す。
- 参考スコア(独自算出の注目度): 58.47431497789902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual attention boosting has emerged as a promising direction for mitigating hallucinations in Large Vision-Language Models (LVLMs), where existing methods primarily focus on where to boost by applying a predefined scaling to the attention of method-specific visual tokens during autoregressive generation. In this paper, we identify a fundamental trade-off in these methods: a predefined scaling factor can be too weak at some generation steps, leaving hallucinations unresolved, yet too strong at others, leading to new hallucinations. Motivated by this finding, we propose AdaVBoost, a token-level visual attention boosting framework that adaptively determines how much attention to boost at each generation step. Specifically, we introduce Visual Grounding Entropy (VGE) to estimate hallucination risk, which leverages visual grounding as a complementary signal to capture evidence mismatches beyond entropy. Guided by VGE, AdaVBoost applies stronger visual attention boosting to high-risk tokens and weaker boosting to low-risk tokens, enabling token-level adaptive intervention at each generation step. Extensive experiments show that AdaVBoost significantly outperforms baseline methods across multiple LVLMs and hallucination benchmarks.
- Abstract(参考訳): LVLM(Large Vision-Language Models)では、自己回帰生成中のメソッド固有の視覚トークンの注意に事前定義されたスケーリングを適用することで、既存の手法がブーストする場所に焦点を当てている。
事前定義されたスケーリング係数は、ある生成段階において弱すぎるため、幻覚は未解決のままであり、他の領域では強すぎるため、新たな幻覚につながる。
本稿では,AdaVBoostを提案する。AdaVBoostはトークンレベルの視覚的注意力を高めるフレームワークで,各世代でどれだけの注意力を高めるかを適応的に決定する。
具体的には、視覚的接地エントロピー(VGE)を導入して幻覚リスクを推定し、視覚的接地を補完的な信号として活用し、エントロピーを超える不一致を捉える。
VGEによってガイドされたAdaVBoostは、高リスクトークンへのより強力な視覚的注意力の強化と低リスクトークンへの弱化を適用し、各生成ステップにおけるトークンレベルの適応的介入を可能にする。
大規模な実験により、AdaVBoostは複数のLVLMと幻覚ベンチマークでベースライン法を大幅に上回っていることが示された。
関連論文リスト
- Attention to details, logits to truth: visual-aware attention and logits enhancement to mitigate hallucinations in LVLMs [12.578567672069601]
本稿では,タスク関連トークンの注意力を高めるための学習自由注意介入アルゴリズムを提案する。
視覚的トークンの寄与を高めるため,ビーム探索復号法に視覚的注意値を注入し,より高い視覚的注意力を持つ解を同定する。
論文 参考訳(メタデータ) (2026-02-10T08:26:50Z) - Hallucination Begins Where Saliency Drops [18.189047289404325]
幻覚は、前の出力トークンが次のトークンの予測に対して低い正当性を示すときにしばしば起こる。
LVLMs-Saliencyは,各出力トークンの視覚的グラウンドリング強度を定量化する,勾配認識型診断フレームワークである。
本手法は, 流速とタスク性能を保ちながら幻覚率を大幅に低減し, 堅牢かつ解釈可能なソリューションを提供する。
論文 参考訳(メタデータ) (2026-01-28T05:50:52Z) - Attention Hijackers: Detect and Disentangle Attention Hijacking in LVLMs for Hallucination Mitigation [123.54980913741828]
LVLM(Large Vision-Language Models)は幻覚に弱い。
AID(Attention HIjackers Detection and Disentanglement)と呼ばれる新しい非トレーニング型戦略を提案する。
AIDは、命令駆動の視覚的サリエンスを計算することによって、意図的ヒジャッカーを特定する。
次に、これらの特定されたヒジャッカーの視覚的注意を隠蔽するために注意散らし機構を提案する。
Re-Disentanglementは、過剰なマスキング効果を避けるために、命令駆動と画像駆動の視覚的サリエンスの間のバランスを再計算する。
論文 参考訳(メタデータ) (2025-03-11T09:35:55Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。