論文の概要: Scalpel: Fine-Grained Alignment of Attention Activation Manifolds via Mixture Gaussian Bridges to Mitigate Multimodal Hallucination
- arxiv url: http://arxiv.org/abs/2602.09541v1
- Date: Tue, 10 Feb 2026 08:53:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.460669
- Title: Scalpel: Fine-Grained Alignment of Attention Activation Manifolds via Mixture Gaussian Bridges to Mitigate Multimodal Hallucination
- Title(参考訳): Scalpel:マルチモーダル幻覚を緩和するための混合ガウス橋による微粒なアライメント・アライメント・アライメント・アクティベーション・マニフォールド
- Authors: Ziqiang Shi, Rujie Liu, Shanshan Yu, Satoshi Munakata, Koichi Shirahata,
- Abstract要約: より信頼性の高い領域への注意活性化分布を精製することにより幻覚を低減する方法である textbfScalpel を提案する。
スカペルは幻覚を効果的に緩和し、以前の方法より優れ、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 10.753449690999277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rapid progress in large vision-language models (LVLMs) has achieved unprecedented performance in vision-language tasks. However, due to the strong prior of large language models (LLMs) and misaligned attention across modalities, LVLMs often generate outputs inconsistent with visual content - termed hallucination. To address this, we propose \textbf{Scalpel}, a method that reduces hallucination by refining attention activation distributions toward more credible regions. Scalpel predicts trusted attention directions for each head in Transformer layers during inference and adjusts activations accordingly. It employs a Gaussian mixture model to capture multi-peak distributions of attention in trust and hallucination manifolds, and uses entropic optimal transport (equivalent to Schrödinger bridge problem) to map Gaussian components precisely. During mitigation, Scalpel dynamically adjusts intervention strength and direction based on component membership and mapping relationships between hallucination and trust activations. Extensive experiments across multiple datasets and benchmarks demonstrate that Scalpel effectively mitigates hallucinations, outperforming previous methods and achieving state-of-the-art performance. Moreover, Scalpel is model- and data-agnostic, requiring no additional computation, only a single decoding step.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)の急速な進歩は、視覚言語タスクにおいて前例のない性能を達成した。
しかし、大きな言語モデル(LLM)の強い先行性とモダリティに不整合があるため、LVLMは視覚的内容と矛盾する出力を生成することが多く、幻覚と呼ばれる。
そこで本研究では,より信頼性の高い領域への注意活性化分布を精製することにより幻覚を低減する手法である「textbf{Scalpel}」を提案する。
Scalpelは、推論中にトランスフォーマー層の各ヘッドに対する信頼された注意方向を予測し、それに応じてアクティベーションを調整する。
信頼と幻覚多様体の注意の多ピーク分布を捉えるためにガウス混合モデルを使用し、エントロピック最適輸送(シュレーディンガー橋問題と同値)を用いてガウス成分を正確にマッピングする。
緩和中、Scalpelは、コンポーネントメンバーシップと幻覚と信頼の活性化の間のマッピング関係に基づいて、介入強度と方向を動的に調整する。
複数のデータセットとベンチマークにわたる大規模な実験により、Scalpelは幻覚を効果的に軽減し、以前の方法より優れ、最先端のパフォーマンスを達成することを示した。
さらに、Scalpelはモデルとデータに依存しないため、追加の計算は必要とせず、単一のデコードステップしか必要としない。
関連論文リスト
- SchröMind: Mitigating Hallucinations in Multimodal Large Language Models via Solving the Schrödinger Bridge Problem [10.753449690999277]
MLLMは画像を理解することができるが、正確なトークンシーケンスを生成するのに苦労している。
マイナーな摂動は、真理から不合理な状態へと注意を移すことができ、テキスト生成の自己回帰的な性質は、しばしばエラー訂正を妨げる。
我々はシュルディンガー橋問題を解くことで幻覚を減らす新しいフレームワークSchrMindを提案する。
論文 参考訳(メタデータ) (2026-02-10T08:36:40Z) - PruneHal: Reducing Hallucinations in Multi-modal Large Language Models through Adaptive KV Cache Pruning [87.35309934860938]
大型言語モデル(MLLM)における幻覚は、視覚トークンに割り当てられた注意不足と強く関連している。
我々は、適応的なKVキャッシュプルーニングを活用し、重要な視覚情報に焦点をあてるトレーニングフリーでシンプルで効果的な方法である textbfPruneHal を提案する。
論文 参考訳(メタデータ) (2025-10-22T02:41:07Z) - Beyond ROUGE: N-Gram Subspace Features for LLM Hallucination Detection [5.0106565473767075]
大規模言語モデル(LLM)は、自然言語を含む様々なタスクにおいて有効性を示す。
幻覚の根本的な問題は依然としてこれらのモデルに悩まされており、一貫性のある真正な情報を生成する際の信頼性を制限している。
LLM生成テキストからN-Gram周波数テンソルを構成するROUGEにインスパイアされた新しい手法を提案する。
このテンソルは共起パターンを符号化することでよりリッチな意味構造を捉え、事実と幻覚的コンテンツをよりよく区別することができる。
論文 参考訳(メタデータ) (2025-09-03T18:52:24Z) - MRFD: Multi-Region Fusion Decoding with Self-Consistency for Mitigating Hallucinations in LVLMs [57.931366749890906]
MRFD (Multi-Region Fusion Decoding) は、領域間の一貫性をモデル化することにより、現実のグラウンド化を改善する訓練自由復号法である。
MRFDは、クロスアテンションを用いて正常な領域を特定し、それぞれの初期応答を生成し、Jensen-Shannon Divergenceに基づいて信頼性ウェイトを算出する。
論文 参考訳(メタデータ) (2025-08-14T01:17:39Z) - Mitigating Object Hallucination via Robust Local Perception Search [11.570368427723961]
局所知覚探索(Local Perception Search, LPS)は、単純かつ訓練のない推論における復号法であり、幻覚を効果的に抑制する。
LPSはベースラインに比べて幻覚の発生率を著しく低下させ,特に騒音条件下では異常な性能を示した。
論文 参考訳(メタデータ) (2025-06-07T09:27:26Z) - Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。
我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。
この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文 参考訳(メタデータ) (2025-03-11T11:52:37Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。