論文の概要: MHSA: A Lightweight Framework for Mitigating Hallucinations via Steered Attention in LVLMs
- arxiv url: http://arxiv.org/abs/2605.14966v1
- Date: Thu, 14 May 2026 15:31:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.913854
- Title: MHSA: A Lightweight Framework for Mitigating Hallucinations via Steered Attention in LVLMs
- Title(参考訳): MHSA:LVLMのステアリング注意による幻覚の緩和のための軽量フレームワーク
- Authors: Wei Ding, Yilin Li, Yudong Zhang, Ruobing Xie, Xingwu Sun, Jiansheng Chen, Yu Wang,
- Abstract要約: 大規模視覚言語モデル (LVLM) は多様なマルチモーダルタスクで顕著な性能を達成しているが、幻覚に悩まされ続けている。
我々は,LVLMにおける相互注意パターンの修正を学習することで幻覚を緩和するフレームワークであるMHSAを提案する。
- 参考スコア(独自算出の注目度): 48.94350400699494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (LVLMs) have achieved remarkable performance across diverse multimodal tasks, yet they continue to suffer from hallucinations, generating content that is inconsistent with the visual input. Prior work DHCP (Detecting Hallucinations by Cross-modal Attention Pattern) has explored hallucination detection from the perspective of cross-modal attention, but does not address hallucination mitigation. In this paper, we propose MHSA (Mitigating Hallucinations via Steered Attention), a lightweight framework that mitigates hallucinations by learning to correct cross-modal attention patterns in LVLMs. MHSA trains a simple three-layer MLP generator to produce corrected attention, guided by supervisory signals from the DHCP discriminator and the LVLM itself. During inference, MHSA mitigates both discriminative and generative hallucinations across various datasets and LVLMs by simply replacing the original cross-modal attention with the corrected one, without modifying any LVLM parameters. By extending cross-modal attention mechanisms from hallucination detection to hallucination mitigation, MHSA offers a novel perspective on hallucination research in LVLMs and helps enhance their reliability.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は多様なマルチモーダルタスクにまたがって顕著な性能を達成しているが、幻覚に悩まされ続けており、視覚入力と矛盾するコンテンツを生成する。
DHCP(Detecting Hallucinations by Cross-modal Attention Pattern)は、モーダル・アテンションの観点から幻覚の検出を研究しているが、幻覚の緩和には対処していない。
本稿では,LVLMにおける相互注意パターンの修正を学習することで幻覚を緩和する軽量なフレームワークであるMHSAを提案する。
MHSAは、DHCPディスクリミネータとLVLM自体からの監視信号によって誘導される、単純な3層MLPジェネレータを訓練して、注意を正す。
推論中、MHSAは、LVLMパラメータを変更することなく、オリジナルの横断的な注意を修正したものに置き換えることで、様々なデータセットやLVLM間での識別と生成の両方の幻覚を緩和する。
MHSAは、幻覚検出から幻覚緩和まで、横断的注意機構を拡張することにより、LVLMにおける幻覚研究の新しい視点を提供し、その信頼性を高める。
関連論文リスト
- R-CoV: Region-Aware Chain-of-Verification for Alleviating Object Hallucinations in LVLMs [88.62912181680413]
Region-Aware Chain-of-Verification (R-CoV) は、大規模視覚言語モデルにおける物体の幻覚を緩和する視覚連鎖検証法である。
R-CoVは、初期応答生成、エンティティ抽出、座標生成、領域記述、検証実行、最終応答生成の6つのステップから構成される。
論文 参考訳(メタデータ) (2026-04-22T15:41:33Z) - Kestrel: Grounding Self-Refinement for LVLM Hallucination Mitigation [86.37623966653688]
大規模視覚言語モデル(LVLM)はますます強まりつつあるが、マルチモーダルタスクにおいて幻覚を起こす傾向にある。
幻覚を避けるためにこれらのLVLMを訓練することは、より大きなモデルでは違法に高価になるため、トレーニングフリーな手法はこの問題に対して安価で柔軟な解決策を提供する。
我々は,視覚的視覚的接地剤とエビデンスを検証した自己修復機構を組み合わせた,LVLM幻覚軽減のためのトレーニングフリーフレームワークであるKestrelを提案する。
論文 参考訳(メタデータ) (2026-03-17T15:30:47Z) - Seeing Clearly without Training: Mitigating Hallucinations in Multimodal LLMs for Remote Sensing [38.87853049845978]
マルチモーダル大言語モデル(MLLM)は、リモートセンシング視覚質問応答(RS-VQA)において顕著な幻覚に苦しむ
実例と論理的幻覚の詳細な診断のためのプロトコルベースのベンチマークであるRSHBenchを紹介する。
本稿では、段階的局所化とテスト時のきめ細かい局所推論を導くために、相対的注意駆動能動推論(RADAR)を提案する。
論文 参考訳(メタデータ) (2026-03-03T08:53:20Z) - Modality Bias in LVLMs: Analyzing and Mitigating Object Hallucination via Attention Lens [0.0]
大規模視覚言語モデル (LVLM) は、顕著なマルチモーダル理解と推論能力を示した。
LVLMはテキストのプロンプトと大きな言語モデルの内部知識に過度に依存し、視覚的手がかりと矛盾する記述を生成する傾向がある。
物体幻覚を緩和するためのトレーニング不要な手法を提案する。
論文 参考訳(メタデータ) (2025-08-04T13:40:59Z) - Steering LVLMs via Sparse Autoencoder for Hallucination Mitigation [38.43656456659151]
大規模視覚言語モデル (LVLM) はマルチモーダルタスクにおいて顕著な性能を達成した。
彼らはまだ幻覚に悩まされており、視覚的な入力と矛盾するテキストを生成し、現実世界のアプリケーションに重大なリスクを及ぼしている。
LVLM における幻覚を緩和するために,SAE 由来の潜伏方向に基づくプラグアンドプレイ方式である SAE Latent Directions (SSL) を用いたステアリング LVLM を提案する。
論文 参考訳(メタデータ) (2025-05-22T02:45:45Z) - Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。
本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。
本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文 参考訳(メタデータ) (2024-12-15T09:10:46Z) - DHCP: Detecting Hallucinations by Cross-modal Attention Pattern in Large Vision-Language Models [31.315218279775753]
我々は幻覚を識別できる軽量検出器を開発した。
提案手法は,モーダル・アテンション・パターンによる幻覚の検出が簡単である。
論文 参考訳(メタデータ) (2024-11-27T09:43:09Z) - The Dawn After the Dark: An Empirical Study on Factuality Hallucination
in Large Language Models [134.6697160940223]
幻覚は、大きな言語モデルの信頼できるデプロイには大きな課題となります。
幻覚(検出)の検出方法、LLMが幻覚(ソース)をなぜ検出するのか、そしてそれを緩和するために何ができるか、という3つの重要な疑問がよく研究されるべきである。
本研究は, 幻覚検出, 発生源, 緩和の3つの側面に着目した, LLM幻覚の系統的研究である。
論文 参考訳(メタデータ) (2024-01-06T12:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。