論文の概要: Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning
- arxiv url: http://arxiv.org/abs/2509.06461v1
- Date: Mon, 08 Sep 2025 09:20:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.029691
- Title: Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning
- Title(参考訳): コントラスト注意による焦点:VLMの視覚的推論の強化
- Authors: Yuyao Ge, Shenghua Liu, Yiwei Wang, Lingrui Mei, Baolong Bi, Xuanshan Zhou, Jiayu Yao, Jiafeng Guo, Xueqi Cheng,
- Abstract要約: VLM(Vision-Language Models)は様々な視覚的タスクで顕著な成功を収めているが、複雑な視覚環境では性能が低下している。
視覚的複雑性は、注意エントロピーと強く相関し、推論性能に悪影響を及ぼすことを示す。
本稿では,CARVE(Contrastive Attention Refinement for Visual Enhancement)を提案する。
- 参考スコア(独自算出の注目度): 79.34909830834464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated remarkable success across diverse visual tasks, yet their performance degrades in complex visual environments. While existing enhancement approaches require additional training, rely on external segmentation tools, or operate at coarse-grained levels, they overlook the innate ability within VLMs. To bridge this gap, we investigate VLMs' attention patterns and discover that: (1) visual complexity strongly correlates with attention entropy, negatively impacting reasoning performance; (2) attention progressively refines from global scanning in shallow layers to focused convergence in deeper layers, with convergence degree determined by visual complexity. (3) Theoretically, we prove that the contrast of attention maps between general queries and task-specific queries enables the decomposition of visual signal into semantic signals and visual noise components. Building on these insights, we propose Contrastive Attention Refinement for Visual Enhancement (CARVE), a training-free method that extracts task-relevant visual signals through attention contrasting at the pixel level. Extensive experiments demonstrate that CARVE consistently enhances performance, achieving up to 75% improvement on open-source models. Our work provides critical insights into the interplay between visual complexity and attention mechanisms, offering an efficient pathway for improving visual reasoning with contrasting attention.
- Abstract(参考訳): VLM(Vision-Language Models)は様々な視覚的タスクで顕著な成功を収めているが、複雑な視覚環境では性能が低下している。
既存の拡張アプローチでは、追加のトレーニング、外部セグメンテーションツールへの依存、あるいは粗い粒度での運用を必要とするが、彼らはVLMの本質的な能力を見落としている。
このギャップを埋めるために, VLM の注意パターンを調査し,(1) 視覚的複雑さは注意エントロピーと強く相関し, 推論性能に悪影響を及ぼす。(2) 注目は浅い層におけるグローバル走査からより深い層への集中収束まで徐々に洗練され, 視覚的複雑性によって収束度が決定される。
3) 理論的には,一般的な問合せとタスク固有の問合せとの注意マップの対比は,視覚信号のセマンティック信号や視覚ノイズ成分への分解を可能にする。
これらの知見に基づいて、画素レベルでのコントラストによるタスク関連視覚信号を抽出する訓練不要なCARVE(Contrastive Attention Refinement for Visual Enhancement)を提案する。
大規模な実験により、CARVEは一貫してパフォーマンスを向上し、最大75%のオープンソースモデルの改善を実現している。
我々の研究は、視覚的複雑性と注意機構の相互作用に関する重要な洞察を与え、対照的な注意力で視覚的推論を改善するための効果的な経路を提供する。
関連論文リスト
- Visual Structures Helps Visual Reasoning: Addressing the Binding Problem in VLMs [9.406760867809124]
本稿では、簡易かつ効果的な介入であるVISER(Visual Input Structure for Enhanced Reasoning)を紹介する。
私たちは、コアの視覚的推論タスクに対して、実質的なパフォーマンス改善を実証的に示します。
低レベルの視覚構造は、構成的視覚的推論を改善するために強力で未探索の方向であることがわかった。
論文 参考訳(メタデータ) (2025-06-27T11:44:40Z) - Caption This, Reason That: VLMs Caught in the Middle [3.4820139118440676]
VLM(Vision-Language Models)は近年,視覚的理解の進歩を目覚ましいものにしている。
カウントやリレーショナル推論といった視覚的なタスクでは、人間の能力が遅れている。
認識,注意,記憶など,コア認知軸に沿ったVLMのパフォーマンスを解析する。
論文 参考訳(メタデータ) (2025-05-24T14:25:48Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。