論文の概要: Seeing to Ground: Visual Attention for Hallucination-Resilient MDLLMs
- arxiv url: http://arxiv.org/abs/2603.25711v1
- Date: Thu, 26 Mar 2026 17:53:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.414857
- Title: Seeing to Ground: Visual Attention for Hallucination-Resilient MDLLMs
- Title(参考訳): 地面に見る:幻覚耐性MDLLMの視覚的注意
- Authors: Vishal Narnaware, Animesh Gupta, Kevin Zhai, Zhenyi Wang, Mubarak Shah,
- Abstract要約: トレーニング不要なデコードフレームワークであるVISAGEを導入し、推論時に目的を校正する。
我々は、VISAGEが推定誤差の下で有界目的損失を維持することを保証する解析的安定性を保証する。
幻覚感受性および汎用ベンチマークによる評価は、フレームワークの堅牢性を示している。
- 参考スコア(独自算出の注目度): 47.94507630961399
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal Diffusion Large Language Models (MDLLMs) achieve high-concurrency generation through parallel masked decoding, yet the architectures remain prone to multimodal hallucinations. This structural vulnerability stems from an algorithmic flaw: the decoder ranks candidate tokens based on textual likelihood without verifying localized visual support. We establish that this language-only ranking induces an objective mismatch, where language probability mass acts as a misspecified proxy for the intended multimodal task. Consequently, we reinterpret hallucination as a localized optimization error, a phenomenon where the decoder exploits language shortcuts to maximize a proxy score at the expense of visual grounding. To address this objective mismatch, we introduce VISAGE, a training-free decoding framework that calibrates the objective at inference time. VISAGE estimates the proxy discrepancy by quantifying the spatial entropy of cross-attention distributions. By enforcing a localization consensus across attention heads, the method penalizes spatially uniform distributions and re-ranks token commitments to favor visually grounded outcomes. We provide an analytical stability guarantee establishing that VISAGE maintains a bounded objective loss under estimation error. Evaluations across hallucination-sensitive and general-purpose benchmarks demonstrate the robustness of the framework, yielding relative gains of 8.59% on MMMU-val and 7.75% on HallusionBench.
- Abstract(参考訳): MDLLM(Multimodal Diffusion Large Language Models)は、並列マスクデコードにより高速な生成を実現するが、アーキテクチャはマルチモーダル幻覚の傾向にある。
デコーダは、局所的な視覚的サポートを検証することなく、テキスト上の可能性に基づいて候補トークンをランク付けする。
この言語のみのランキングは、言語確率の質量が意図したマルチモーダルタスクの誤ったプロキシとして機能する、客観的なミスマッチを誘導する。
その結果,幻覚を局所的な最適化誤差と解釈し,デコーダが言語ショートカットを利用して視覚的なグラウンド化を犠牲にしてプロキシスコアを最大化する現象について考察した。
この目的的ミスマッチに対処するために、推論時に目的を校正するトレーニング不要なデコードフレームワークVISAGEを導入する。
VISAGEは、クロスアテンション分布の空間エントロピーを定量化することで、プロキシの相違を推定する。
本手法は,注目ヘッド間の局所化コンセンサスを強制することにより,空間的均一な分布をペナルティ化し,トークンのコミットメントを再ランクし,視覚的根拠のある結果を求める。
我々は、VISAGEが推定誤差の下で有界目的損失を維持することを保証する解析的安定性を保証する。
幻覚感受性および汎用ベンチマークによる評価は、フレームワークの堅牢性を示し、MMMU-valでは8.59%、HalusionBenchでは7.75%の相対的な利得を得た。
関連論文リスト
- Attention-space Contrastive Guidance for Efficient Hallucination Mitigation in LVLMs [9.043999205886658]
大きな視覚言語モデルにおける幻覚は、言語が視覚的証拠を支配するときにしばしば起こる。
本稿では,視覚言語と言語のみの注意経路を構築するために,自己注意層内で動作するシングルパス機構であるContrastive Guidance(ACG)を提案する。
ACGは、計算コストを大幅に削減しつつ、最先端の忠実さとキャプション品質を達成する。
論文 参考訳(メタデータ) (2026-01-20T08:04:18Z) - Reasoning-Driven Amodal Completion: Collaborative Agents and Perceptual Evaluation [17.405818788700234]
本稿では,視覚合成から意味的計画を明確に分離する協調的マルチエージェント推論フレームワークを提案する。
提案手法は,画素生成前の構造的,明示的なプランを生成し,視覚的,意味的に整合した単一パス合成を可能にする。
従来の評価基準の限界に対処し,新しい人間対応評価指標MAC-Scoreを導入する。
論文 参考訳(メタデータ) (2025-12-24T04:39:45Z) - Toward More Reliable Artificial Intelligence: Reducing Hallucinations in Vision-Language Models [0.0]
視覚言語モデル(VLM)は、しばしば幻覚的コンテンツを生成するが、画像の内容に関する誤った主張である。
本稿では,不確実性誘導による視覚的再認識によってVLMの応答を反復的に改善することのできる,トレーニング不要な自己補正フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-08T13:58:46Z) - Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。
提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。
実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文 参考訳(メタデータ) (2025-06-10T06:40:43Z) - PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training [56.172959986096316]
本稿では,マルチモーダル大規模言語モデル(MLLM)における幻覚の課題を解決することを目的とする。
HalFscoreは言語グラフ上に構築された新しい計量であり、密度の高いキャプションの精度と完全性の両方を粒度レベルで評価するように設計されている。
PerturboLLaVAは、生成されたキャプションの忠実度を著しく改善し、マルチモーダル幻覚に対する既存のアプローチよりも優れている。
論文 参考訳(メタデータ) (2025-03-09T07:07:03Z) - Transparent and Coherent Procedural Mistake Detection [30.540514590818265]
手続き的誤り検出(英: Procedural mis detection、PMD)は、人間がタスクをうまく実行したかどうかを分類する難しい問題である(手続き的テキストで特定)。
我々は、意思決定に視覚的自己対話的合理性を生成するためにPMDを拡張した。
近年のヴィジュアル・アンド・ランゲージモデル(VLM)で観察される印象的かつ成熟した画像理解能力を考えると、個々のフレームに基づいてPMDに適したベンチマークデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-12-16T16:13:55Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。