論文の概要: V-ITI: Mitigating Hallucinations in Multimodal Large Language Models via Visual Inference-Time Intervention
- arxiv url: http://arxiv.org/abs/2512.03542v1
- Date: Wed, 03 Dec 2025 08:03:54 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:16:56.269397
- Title: V-ITI: Mitigating Hallucinations in Multimodal Large Language Models via Visual Inference-Time Intervention
- Title(参考訳): V-ITI:視覚的推論時間干渉による多モーダル大言語モデルにおける幻覚の緩和
- Authors: Nan Sun, Zhenyu Zhang, Xixun Lin, Kun Wang, Yanmin Shang, Naibin Gu, Shuohuan Wang, Yu Sun, Hua Wu, Haifeng Wang, Yanan Cao,
- Abstract要約: MLLM(Multimodal Large Language Models)は、幻覚に苦しむ多くの視覚言語タスクに優れる。
本稿では,Visual Neglect Detectorを統合した軽量な視覚推論時間介入フレームワークであるV-ITIを提案する。
V-ITIは、一般的なタスク性能を維持しながら、視覚関連幻覚を一貫して緩和する。
- 参考スコア(独自算出の注目度): 39.81171248046778
- License:
- Abstract: Multimodal Large Language Models (MLLMs) excel in numerous vision-language tasks yet suffer from hallucinations, producing content inconsistent with input visuals, that undermine reliability in precision-sensitive domains. This issue stems from a fundamental problem of visual neglect, where models fail to adequately prioritize input images. Existing methods typically alleviate hallucinations by intervening in the attention score or output logits, focusing on "how to intervene" but overlooking the prerequisite "when to intervene", which leads to the "over-intervention" problem and subsequently introduces new hallucinations and unnecessary computational overhead. To address this gap, we first investigate the mechanism of visual neglect and reveal it can be accurately detected via head-level activation patterns in MLLMs. We thus propose V-ITI, a lightweight visual inference-time intervention framework integrating a Visual Neglect Detector that identifies visual neglect via head-level discriminative probes and a Visual Recall Intervenor that modulates activations with prestored visual activation information only when the visual neglect is detected. Extensive experiments across eight benchmarks and different MLLM families demonstrate that V-ITI consistently mitigates vision-related hallucinations while preserving general task performance.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は幻覚に苦しむ多くの視覚言語タスクに優れ、入力された視覚と矛盾するコンテンツを生成し、精度に敏感なドメインの信頼性を損なう。
この問題は、モデルが入力画像の適切な優先順位付けに失敗する、視覚的無視という根本的な問題に起因している。
既存の方法は、注意点や出力ロジットに介入することで幻覚を緩和し、「介入する方法」に焦点をあてるが、必要な「介入する時」を見渡すことで「過剰介入」の問題を引き起こし、新しい幻覚と不要な計算オーバーヘッドを導入する。
このギャップに対処するために、まず視覚的無視のメカニズムを調査し、MLLMのヘッドレベルアクティベーションパターンによって正確に検出できることを明らかにする。
そこで我々は,頭部識別プローブによる視覚的無視を識別するVisual Neglect Detectorと,視覚的無視を検出する場合にのみ,予め記憶された視覚的アクティベーション情報でアクティベーションを変調するVisual Recall Intervenorとを組み合わせた,軽量な視覚的推論時間介入フレームワークであるV-ITIを提案する。
8つのベンチマークと異なるMLLMファミリーにわたる大規模な実験により、V-ITIは一般的なタスク性能を維持しながら、常に視覚関連幻覚を緩和することを示した。
関連論文リスト
- Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - Reducing Hallucinations in Vision-Language Models via Latent Space Steering [34.1755878632361]
幻覚は、アプリケーションに大規模な視覚言語モデル(LVLM)を配置する上での課題である。
本稿では,視覚的特徴の安定性を高めるために,視覚とテクスチュアル・インターベンション(VTI, Visual and Textual Intervention)を提案する。
論文 参考訳(メタデータ) (2024-10-21T08:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。