論文の概要: Deeper Thought, Weaker Aim: Understanding and Mitigating Perceptual Impairment during Reasoning in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2603.14184v1
- Date: Sun, 15 Mar 2026 02:21:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.654473
- Title: Deeper Thought, Weaker Aim: Understanding and Mitigating Perceptual Impairment during Reasoning in Multimodal Large Language Models
- Title(参考訳): より深く考える、Weaker Aim:多モーダル大言語モデルにおける推論中の知覚障害の理解と緩和
- Authors: Ruiying Peng, Xueyu Wu, Jing Lei, Lu Hou, Yuanzheng Ma, Xiaohui Li,
- Abstract要約: MLLM(Multimodal large language model)はしばしば、拡張推論モードの下で知覚障害に悩まされる。
多段階の推論において、モデルの視覚的注意が散らばり、疑問関連領域から遠ざかって、視覚的入力に効果的に焦点をあてる。
本研究では,エントロピー・フォーカス基準に基づいて視覚的頭部を選択する学習自由な視覚領域誘導注意(VRGA)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.851502442699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) often suffer from perceptual impairments under extended reasoning modes, particularly in visual question answering (VQA) tasks. We identify attention dispersion as the underlying cause: during multi-step reasoning, the model's visual attention becomes scattered and drifts away from question-relevant regions, effectively "losing focus" on the visual input. To better understand this phenomenon, we analyze the attention maps of MLLMs and observe that reasoning prompts significantly reduce attention to regions critical for answering the question. We further find a strong correlation between the model's overall attention on image tokens and the spatial dispersiveness of its attention within the image. Leveraging this insight, we propose a training-free Visual Region-Guided Attention (VRGA) framework that selects visual heads based on an entropy-focus criterion and reweights their attention, effectively guiding the model to focus on question-relevant regions during reasoning. Extensive experiments on vision-language benchmarks demonstrate that our method effectively alleviates perceptual degradation, leading to improvements in visual grounding and reasoning accuracy while providing interpretable insights into how MLLMs process visual information.
- Abstract(参考訳): MLLM(Multimodal large language model)は、特に視覚的質問応答(VQA)タスクにおいて、拡張推論モード下で知覚障害に悩まされることが多い。
多段階の推論において、モデルの視覚的注意が散らばり、疑問関連領域から遠ざかって、視覚的入力に効果的に焦点をあてる。
この現象をよりよく理解するために,我々はMLLMの注意図を分析し,推論が疑問に答える上で重要な領域への注意を著しく減少させることを観察した。
さらに,画像トークンに対するモデル全体の注意点と,画像内の注意点の空間的分散度との間には,強い相関関係が認められた。
この知見を生かして、エントロピー・フォーカス基準に基づいて視覚的頭部を選択する訓練不要な視覚領域誘導注意(VRGA)フレームワークを提案する。
視覚言語ベンチマークにおける広範囲な実験により,我々の手法は知覚の劣化を効果的に軽減し,視覚的グラウンド化や推論精度の向上につながるとともに,MLLMが視覚情報をどのように処理するかの解釈可能な洞察を提供する。
関連論文リスト
- Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks [0.006813985320936554]
従来見過ごされていた現象を考察する: チェーン・オブ・ソート(CoT)世代において、推論のテキスト・ツー・イメージ(T2I)の注意が「パルス」を拡散させる。
我々は、CoT推論をソフトアテンションゲーティングでインターリーブされたプラン/フォーカスブロックに構造化する訓練不要な推論時間手法であるPulseFocusを提案する。
論文 参考訳(メタデータ) (2026-03-04T23:34:39Z) - Do MLLMs Really See It: Reinforcing Visual Attention in Multimodal LLMs [55.61018839017648]
CoT(Chain-of- Thought)推論は、複雑な推論タスクにおいて、MLLM(Multimodal large language model)を大幅に改善した。
既存のアプローチは、主に長いテキスト推論軌道に依存し、安定した視覚的注意ポリシーを学ぶための限られたメカニズムを提供する。
地域レベルの視覚的注意に基づく報酬を導入する強化学習フレームワークを用いて訓練された視覚的推論モデルであるSAYOを提案する。
論文 参考訳(メタデータ) (2026-02-09T03:33:23Z) - Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning [79.34909830834464]
VLM(Vision-Language Models)は様々な視覚的タスクで顕著な成功を収めているが、複雑な視覚環境では性能が低下している。
視覚的複雑性は、注意エントロピーと強く相関し、推論性能に悪影響を及ぼすことを示す。
本稿では,CARVE(Contrastive Attention Refinement for Visual Enhancement)を提案する。
論文 参考訳(メタデータ) (2025-09-08T09:20:04Z) - Look-Back: Implicit Visual Re-focusing in MLLM Reasoning [15.478700750705643]
マルチモーダル大言語モデル (MLLM) は多モーダル推論において顕著な進歩を遂げている。
現在の手法では、推論プロセスのガイドとして視覚情報を明示的に注入することで、この問題に対処するのが一般的である。
MLLMを振り返って視覚情報を見るための暗黙のアプローチであるLook-Backを導入する。
論文 参考訳(メタデータ) (2025-07-02T14:59:35Z) - Exploring Implicit Visual Misunderstandings in Multimodal Large Language Models through Attention Analysis [21.869968563545736]
我々は、暗黙的な視覚的誤解(IVM)を定義し、MLLMは視覚的入力を完全に理解することなく正しい回答を提供する。
IVMの定量化には,スケール非依存の計量,テクスチャータテンションの精度,新しいベンチマークを導入する。
我々は、より微細な粒度にアプローチを拡張し、その効果を単調なシナリオで実証する。
論文 参考訳(メタデータ) (2025-05-15T17:52:40Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [69.56484419619919]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - MINT: Mitigating Hallucinations in Large Vision-Language Models via Token Reduction [6.416957959150438]
幻覚は、高い信頼性を必要とする領域におけるLVLM(Large Vision-Language Models)の適用を妨げる。
tokeN再帰による幻覚を緩和する訓練不要な復号法であるMINTを提案する。
提案手法は,従来のモデルに比べて知覚障害による幻覚の緩和効果が4%向上する。
論文 参考訳(メタデータ) (2025-02-02T08:34:57Z) - Repulsive Attention: Rethinking Multi-head Attention as Bayesian
Inference [68.12511526813991]
ベイズの視点からの多面的注目の新たな理解を提供する。
マルチヘッドアテンションにおける反発性を明示的に改善する非パラメトリックアプローチを提案する。
様々な注意モデルや応用実験により、提案された反発的注意が学習された特徴の多様性を向上させることが示されている。
論文 参考訳(メタデータ) (2020-09-20T06:32:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。