論文の概要: Beyond Static Cropping: Layer-Adaptive Visual Localization and Decoding Enhancement
- arxiv url: http://arxiv.org/abs/2602.04304v1
- Date: Wed, 04 Feb 2026 08:13:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.431376
- Title: Beyond Static Cropping: Layer-Adaptive Visual Localization and Decoding Enhancement
- Title(参考訳): Beyond Static Cropping: レイヤ適応型ビジュアルローカライゼーションとデコード拡張
- Authors: Zipeng Zhu, Zhanghao Hu, Qinglin Zhu, Yuxi Hong, Yijun Liu, Jingyong Su, Yulan He, Lin Gui,
- Abstract要約: LVLM(Large Vision-Language Models)は、画像パッチをテキスト埋め込みスペースと整列させることにより、急速に進歩しているが、固定された視覚的な予算により、イメージを均一な事前訓練解像度に再サイズする。
最近の注意誘導強化(例えば、収穫や地域中心の注意配分)は、これを緩和するが、単純な認識ベンチマークで経験的に選択された静的な「魔法の層」に強く依存する。
この静的な仮定とは対照的に,視覚的接地に関する動的視点を提案する。
様々なVQAベンチマークによる実験により、LASERは様々なレベルの複雑さを持つタスク間でVQAの精度を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 30.12584783649903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have advanced rapidly by aligning visual patches with the text embedding space, but a fixed visual-token budget forces images to be resized to a uniform pretraining resolution, often erasing fine-grained details and causing hallucinations via over-reliance on language priors. Recent attention-guided enhancement (e.g., cropping or region-focused attention allocation) alleviates this, yet it commonly hinges on a static "magic layer" empirically chosen on simple recognition benchmarks and thus may not transfer to complex reasoning tasks. In contrast to this static assumption, we propose a dynamic perspective on visual grounding. Through a layer-wise sensitivity analysis, we demonstrate that visual grounding is a dynamic process: while simple object recognition tasks rely on middle layers, complex visual search and reasoning tasks require visual information to be reactivated at deeper layers. Based on this observation, we introduce Visual Activation by Query (VAQ), a metric that identifies the layer whose attention map is most relevant to query-specific visual grounding by measuring attention sensitivity to the input query. Building on VAQ, we further propose LASER (Layer-adaptive Attention-guided Selective visual and decoding Enhancement for Reasoning), a training-free inference procedure that adaptively selects task-appropriate layers for visual localization and question answering. Experiments across diverse VQA benchmarks show that LASER significantly improves VQA accuracy across tasks with varying levels of complexity.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、視覚パッチをテキスト埋め込みスペースと整列することで急速に進歩しているが、固定された視覚的な予算により、画像は均一な事前訓練の解像度に再サイズされ、しばしば細かい詳細を消去し、言語先行への過度な依存による幻覚を引き起こす。
近年の注意誘導強化(例えば、収穫、地域中心の注意配分)は、これを緩和するが、通常は単純な認識ベンチマークで経験的に選択された静的な「魔法の層」に掛かるため、複雑な推論タスクに移行しない。
この静的な仮定とは対照的に,視覚的接地に関する動的視点を提案する。
単純なオブジェクト認識タスクは中間層に依存しているが、複雑なビジュアル検索と推論タスクでは、より深い層で視覚情報を活性化する必要がある。
この観測に基づいて,クエリに対する注意感を測定することで,クエリ固有の視覚的接地に最も関連があるレイヤを識別するメトリクスであるVisual Activation by Query (VAQ)を紹介した。
VAQ上に構築したRAER(Layer-adaptive Attention-guided Selective visual and Decoding Enhancement for Reasoning)は,視覚的局所化と質問応答のためのタスクに適したレイヤを適応的に選択する学習自由推論手法である。
様々なVQAベンチマークによる実験により、LASERは様々なレベルの複雑さを持つタスク間でVQAの精度を大幅に改善することが示された。
関連論文リスト
- Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning [79.34909830834464]
VLM(Vision-Language Models)は様々な視覚的タスクで顕著な成功を収めているが、複雑な視覚環境では性能が低下している。
視覚的複雑性は、注意エントロピーと強く相関し、推論性能に悪影響を及ぼすことを示す。
本稿では,CARVE(Contrastive Attention Refinement for Visual Enhancement)を提案する。
論文 参考訳(メタデータ) (2025-09-08T09:20:04Z) - CAI: Caption-Sensitive Attention Intervention for Mitigating Object Hallucination in Large Vision-Language Models [60.0300765815417]
LVLM(Large Vision-Language Models)は、視覚情報から逸脱するコンテンツをしばしば生成し、物体の幻覚を引き起こす。
本稿では,CAI (Caption-sensitive Attention Intervention) を提案する。
論文 参考訳(メタデータ) (2025-06-30T07:52:36Z) - Visual Structures Helps Visual Reasoning: Addressing the Binding Problem in VLMs [9.406760867809124]
本稿では,視覚入力構造を用いた拡張推論(VISER)を提案する。
VISERは、低レベルの空間構造を持つ視覚入力を増強する、シンプルで効果的な方法である。
私たちは、コアの視覚的推論タスクに対して、実質的なパフォーマンス改善を実証的に示します。
論文 参考訳(メタデータ) (2025-06-27T11:44:40Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Weakly Supervised Grounding for VQA in Vision-Language Transformers [112.5344267669495]
本稿では,トランスにおける視覚的質問応答の文脈における弱教師付きグラウンドリングの問題に焦点をあてる。
このアプローチでは、視覚エンコーダ内の各視覚トークンをグループ化することでカプセルを活用する。
我々は、挑戦的なGQAとVQAグラウンドリングのためのVQA-HATデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-05T22:06:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。