論文の概要: Tell Model Where to Look: Mitigating Hallucinations in MLLMs by Vision-Guided Attention
- arxiv url: http://arxiv.org/abs/2511.20032v1
- Date: Tue, 25 Nov 2025 07:58:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.349044
- Title: Tell Model Where to Look: Mitigating Hallucinations in MLLMs by Vision-Guided Attention
- Title(参考訳): 視覚誘導注意によるMLLMの幻覚の軽減
- Authors: Jianfei Zhao, Feng Zhang, Xin Sun, Chong Feng, Zhixing Tan,
- Abstract要約: VGA(Vision-Guided Attention)は、視覚トークンのセマンティックな内容を活用することで、まず正確な視覚的接地を構築する訓練自由な手法である。
画像キャプションにおいて、VGAは、既に記述されている領域を抑えることにより、生成中にこのガイダンスを動的に洗練する。
VGAでは、各トークンは1つのフォワードパスしか実行せず、無視できる遅延オーバーヘッドは4.36%である。
- 参考スコア(独自算出の注目度): 12.491288365811657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual attention serves as the primary mechanism through which MLLMs interpret visual information; however, its limited localization capability often leads to hallucinations. We observe that although MLLMs can accurately extract visual semantics from visual tokens, they fail to fully leverage this advantage during subsequent inference. To address this limitation, we propose Vision-Guided Attention (VGA), a training-free method that first constructs precise visual grounding by exploiting the semantic content of visual tokens, and then uses this grounding to guide the model's focus toward relevant visual regions. In image captioning, VGA further refines this guidance dynamically during generation by suppressing regions that have already been described. In VGA, each token undergoes only a single forward pass, introducing a negligible latency overhead of just 4.36\%. In addition, VGA is fully compatible with efficient attention implementations such as FlashAttention. Extensive experiments across diverse MLLMs and multiple hallucination benchmarks demonstrate that VGA achieves state-of-the-art dehallucination performance. Further analysis confirms that explicit visual guidance plays a crucial role in enhancing the visual understanding capabilities of MLLMs.
- Abstract(参考訳): 視覚的注意は、MLLMが視覚情報を解釈する主要なメカニズムであるが、その限られた局所化能力は幻覚につながることが多い。
MLLMは視覚的トークンから視覚的意味論を正確に抽出できるが、その後の推論においてこの利点を十分に活用することができない。
この制限に対処するために、視覚トークンの意味的内容を利用して、まず正確な視覚的グラウンドを構築する訓練不要な手法である視覚誘導注意法(VGA)を提案し、このグラウンドを使用して、モデルが関連する視覚的領域に焦点を向ける。
画像キャプションにおいて、VGAは、既に記述されている領域を抑えることにより、生成中にこのガイダンスを動的に洗練する。
VGAでは、各トークンは1つのフォワードパスしか実行せず、無視できる遅延オーバーヘッドはわずか4.36\%である。
さらに、VGAはFlashAttentionのような効率的なアテンション実装と完全に互換性がある。
多様なMLLMと複数の幻覚ベンチマークにわたる大規模な実験は、VGAが最先端の幻覚性能を達成することを示す。
さらに分析により,MLLMの視覚的理解能力を高める上で,視覚的指示が重要な役割を担っていることが確認された。
関連論文リスト
- Visual Jigsaw Post-Training Improves MLLMs [58.29961336087896]
大規模言語モデル(MLLM)における視覚的理解を強化するために設計された,汎用的な自己教師型ポストトレーニングフレームワークであるVisual Jigsawを紹介する。
視覚的な入力は分割され、シャッフルされ、モデルは自然言語で正しい置換を生成することで視覚情報を再構築する必要がある。
広範囲な実験により、微粒な知覚、時間的推論、空間的理解が大幅に改善された。
論文 参考訳(メタデータ) (2025-09-29T17:59:57Z) - See Different, Think Better: Visual Variations Mitigating Hallucinations in LVLMs [7.964168958699652]
本稿では,視覚中心の幻覚緩和フレームワークであるViHalluについて述べる。
ViHalluは、全体像構造を維持しながら、制御可能な視覚的変化を伴う視覚的変化画像を導入している。
実験により、ViHalluは幻覚の傾向を著しく低減しつつ、モデルのきめ細かい視覚的理解を効果的に強化することが示された。
論文 参考訳(メタデータ) (2025-07-29T16:53:27Z) - CAI: Caption-Sensitive Attention Intervention for Mitigating Object Hallucination in Large Vision-Language Models [60.0300765815417]
LVLM(Large Vision-Language Models)は、視覚情報から逸脱するコンテンツをしばしば生成し、物体の幻覚を引き起こす。
本稿では,CAI (Caption-sensitive Attention Intervention) を提案する。
論文 参考訳(メタデータ) (2025-06-30T07:52:36Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs [52.497823009176074]
LVLM(Large Vision-Language Models)はしばしば、幻覚として知られる事実情報を誤認する応答を生成する。
視覚的知覚の向上とLVLMの推論能力の向上を目的とした学習自由度手法であるVisual Description Grounded Decoding (VDGD)を紹介した。
論文 参考訳(メタデータ) (2024-05-24T16:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。