論文の概要: Correcting Visual Blur Induced by Attention Distraction to Reduce Hallucinations: Algorithm and Theory
- arxiv url: http://arxiv.org/abs/2605.24602v1
- Date: Sat, 23 May 2026 14:36:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.268115
- Title: Correcting Visual Blur Induced by Attention Distraction to Reduce Hallucinations: Algorithm and Theory
- Title(参考訳): 意識障害による視覚ブラの矯正と幻覚の低減:アルゴリズムと理論
- Authors: Quanjiang Li, Zhiming Liu, Wei Luo, Tingjin Luo, Chenping Hou,
- Abstract要約: 幻覚は人のような注意をそらす現象と強く結びついている。
本稿では,注目度向上による注意の注意散らしを補正する,改善されたイメージ知覚のための注意焦点付きアプローチを提案する。
- 参考スコア(独自算出の注目度): 24.777344301465064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) frequently suffer from object hallucinations, yet the visual perceptual mechanism underlying this failure remains poorly understood. In this work, we reveal that hallucinations are strongly associated with a human-like attention distraction phenomenon, where humans under divided focus experience degraded visual clarity and produce inaccurate descriptions, while in models the same mechanism manifests as spatial inconsistency in multi-head attention and temporal fading of attention to image tokens during decoding. We further provide theoretical insights that attention dispersion increases model complexity and degrades classification generalization. Motivated by these findings, we propose an Attention-Focused Approach for Improved Image Perception (AFIP), which corrects attention distraction via cross-head attention enrichment and reinforces visual grounding through dynamic historical attention enhancement. Extensive experiments on multiple benchmarks and models validate the effectiveness of AFIP without additional training.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、しばしばオブジェクト幻覚に悩まされるが、この失敗の根底にある視覚的知覚機構はいまだに理解されていない。
本研究は,視覚的明瞭度を劣化させ,不正確な記述を呈し,その一方で,モデルでは,マルチヘッド注意における空間的不整合や,デコード中の画像トークンに対する注意の時間的減少と同一のメカニズムが現れる,人間のような注意散らし現象と強い関係があることを明らかにする。
さらに,注意分散がモデル複雑性を増大させ,分類一般化を低下させるという理論的知見を提供する。
これらの知見に触発されたAFIP(Attention-Focused Approach for Improved Image Perception)を提案する。
複数のベンチマークやモデルに関する大規模な実験は、追加のトレーニングなしでAFIPの有効性を検証する。
関連論文リスト
- Cognitive Pivot Points and Visual Anchoring: Unveiling and Rectifying Hallucinations in Multimodal Reasoning Models [65.57985131861399]
幻覚は、しばしば高いエントロピー状態を示す認知的分岐点と強く相関している。
本稿では,視覚的に認識可能な推論機能の内部化を目的とした,軽量で総合的なトレーニングパラダイムであるV-STARを提案する。
論文 参考訳(メタデータ) (2026-04-11T13:59:05Z) - See Fair, Speak Truth: Equitable Attention Improves Grounding and Reduces Hallucination in Vision-Language Alignment [16.616065291567445]
MLLM(Multimodal large language model)は視覚入力を欠いたオブジェクトを幻覚させる。
DOP-OBCは、公平な注意の原則に基づいて構築された、トレーニング不要でアーキテクチャに依存しないデコーディング戦略である。
論文 参考訳(メタデータ) (2026-04-10T11:01:48Z) - ART: Attention Replacement Technique to Improve Factuality in LLMs [6.886329170723862]
大規模言語モデル(LLM)の各層における注目スコアの分布と注目ヘッドの分析を行う。
本研究では,浅層における均一な注意パターンを局所的な注意パターンに置き換えるために,ART(Attention Replacement Technique)と呼ばれるトレーニングフリー手法を提案する。
ARTは、微調整や追加のトレーニングデータを必要とすることなく、その有効性と一般化性を証明する。
論文 参考訳(メタデータ) (2026-04-07T19:23:47Z) - Focus Matters: Phase-Aware Suppression for Hallucination in Vision-Language Models [8.304027910542446]
大規模視覚言語モデル(LVLM)における視覚エンコーダの内部的注意ダイナミクスについて検討する。
分析の結果,幻覚の挙動は集中期において注目度が低いトークンに特に敏感であることが判明した。
本稿では、フォーカスフェーズにおいて、このようなトークンを選択的に抑制する軽量な推論時間介入を提案する。
論文 参考訳(メタデータ) (2026-04-04T02:46:58Z) - Attention at Rest Stays at Rest: Breaking Visual Inertia for Cognitive Hallucination Mitigation [50.51650162235191]
本稿では,認知的推論を視覚的注意の動的応答性としてモデル化することにより,この慣性パターンを破る訓練のない慣性認識型視覚興奮(IVE)法を提案する。
IVEは様々な基礎MLLMと複数の幻覚ベンチマーク、特に認知幻覚に有効である。
論文 参考訳(メタデータ) (2026-04-02T12:51:07Z) - Deeper Thought, Weaker Aim: Understanding and Mitigating Perceptual Impairment during Reasoning in Multimodal Large Language Models [15.851502442699]
MLLM(Multimodal large language model)はしばしば、拡張推論モードの下で知覚障害に悩まされる。
多段階の推論において、モデルの視覚的注意が散らばり、疑問関連領域から遠ざかって、視覚的入力に効果的に焦点をあてる。
本研究では,エントロピー・フォーカス基準に基づいて視覚的頭部を選択する学習自由な視覚領域誘導注意(VRGA)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-15T02:21:05Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。