論文の概要: Mitigating Hallucination in Multimodal Reasoning via Functional Attention Control
- arxiv url: http://arxiv.org/abs/2510.10285v1
- Date: Sat, 11 Oct 2025 16:54:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.875051
- Title: Mitigating Hallucination in Multimodal Reasoning via Functional Attention Control
- Title(参考訳): 機能的注意制御によるマルチモーダル推論における幻覚の緩和
- Authors: Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang,
- Abstract要約: 幻覚は依然として持続的な失敗モードであり、誤った推論連鎖と視覚的内容の誤解釈として現れている。
本研究は,注目頭部が段階的分割を示し,浅い頭部が主に知覚に役立ち,深い頭部が象徴的推論に傾いていることを観察する。
本稿では,2段階の軽量で解釈可能な機能的頭部識別とクラス言語再スケーリングを提案する。
- 参考スコア(独自算出の注目度): 17.712786361140818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large reasoning models (MLRMs) are rapidly advancing vision-language reasoning and are emerging as a foundation for cross-modal intelligence. Hallucination remains a persistent failure mode, manifesting itself as erroneous reasoning chains and misinterpretation of visual content. In this study, we observe that attention heads exhibit a staged division: shallow heads predominantly serve perception, while deeper heads shift toward symbolic reasoning, revealing two major causes of hallucination, namely perceptual bias and reasoning drift. To address these issues, we propose a lightweight and interpretable two-step plugin, Functional Head Identification and Class-conditioned Rescaling, which locates perception- and reasoning-oriented heads and regulates their contributions without retraining. Evaluations on three real-world MLRMs (Kimi-VL, Ocean-R1, R1-Onevision), six benchmarks across three domains, and four baselines show that our plugin achieves an average improvement of 5% and up to 15%, with only <1% additional computation and 9% of baseline latency. Our approach is completely model-agnostic and significantly enhances both the reliability and interpretability of the off-the-shelf MLRMs, thereby enabling their safe deployment in high-stakes applications. Our code is available at https://anonymous.4open.science/r/Functional-Attention-Control.
- Abstract(参考訳): マルチモーダル大推論モデル(MLRM)は、視覚言語推論を急速に進歩させ、クロスモーダルインテリジェンスの基礎として浮上している。
幻覚は依然として持続的な失敗モードであり、誤った推論連鎖と視覚的内容の誤解釈として現れている。
本研究では,頭が浅く,頭が象徴的推論に傾き,幻覚,すなわち知覚バイアスと推論ドリフトの2つの主要な原因が明らかになった。
これらの問題に対処するために,機能的頭部同定とクラス条件付き再スケーリングという,軽量で解釈可能な2段階プラグインを提案する。
3つの実世界のMLRM(Kimi-VL,Ocean-R1,R1-Onevision)と3つのドメインにわたる6つのベンチマーク、および4つのベースラインによる評価は、我々のプラグインが平均5%から15%の改善を達成していることを示している。
我々のアプローチは完全にモデルに依存しず、既製のMLRMの信頼性と解釈性の両方を著しく向上させ、高吸蔵アプリケーションへの安全な配置を可能にする。
私たちのコードはhttps://anonymous.4open.science/r/Functional-Attention-Controlで公開されています。
関連論文リスト
- Beyond the Visible: Benchmarking Occlusion Perception in Multimodal Large Language Models [17.922450921582794]
咬合知覚は、人間レベルの空間的理解にとって重要な基礎である。
我々は,オクルージョン知覚に特化して設計された最初の視覚的質問応答(VQA)ベンチマークであるO-Benchを紹介する。
論文 参考訳(メタデータ) (2025-08-06T03:39:21Z) - Visual hallucination detection in large vision-language models via evidential conflict [24.465497252040294]
Dempster-Shafer理論(DST)に基づく不確実性推定によるLVLMの視覚幻覚検出法
そこで本研究では,LVLMの視覚幻覚検出手法として,DST(Dempster-Shafer theory)を用いた第1次視覚幻覚検出法を提案する。
論文 参考訳(メタデータ) (2025-06-24T11:03:10Z) - MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - Treble Counterfactual VLMs: A Causal Approach to Hallucination [6.3952983618258665]
VisionLanguage Models (VLM) には、画像キャプション、視覚的質問応答、推論といった高度なマルチモーダルタスクがある。
視覚的文脈やプロンプトと矛盾しない幻覚出力をしばしば生成する。
既存の研究では、幻覚は統計的バイアス、言語優先、偏見のある特徴学習と結びついているが、構造的な因果理解は欠如している。
論文 参考訳(メタデータ) (2025-03-08T11:13:05Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models [13.48296910438554]
我々は2万以上の実世界のサンプルからなる関係幻覚を対象とする総合的なベンチマークであるReefknotを紹介した。
関係幻覚を体系的に定義し、知覚的視点と認知的視点を統合するとともに、Visual Genomeのシーングラフデータセットを用いて関係ベースのコーパスを構築する。
本稿では,Reefknotを含む3つのデータセットに対して,幻覚率を平均9.75%削減する信頼性に基づく新たな緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-08-18T10:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。