論文の概要: Head-Aware Visual Cropping: Enhancing Fine-Grained VQA with Attention-Guided Subimage
- arxiv url: http://arxiv.org/abs/2601.22483v1
- Date: Fri, 30 Jan 2026 02:46:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.176924
- Title: Head-Aware Visual Cropping: Enhancing Fine-Grained VQA with Attention-Guided Subimage
- Title(参考訳): ヘッドアウェア・ビジュアル・クロップ:注意誘導サブイメージによる細粒度VQAの強化
- Authors: Junfei Xie, Peng Pan, Xulong Zhang,
- Abstract要約: 我々は,注目ヘッドの選択的に洗練されたサブセットを活用することにより,視覚的接地を改善する訓練不要な方法であるtextbfHead Visual Cropping (HAVC) を提案する。
複数の微細なVQAベンチマークの実験は、HAVCが最先端の収穫戦略を一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 4.771792258699647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) show strong performance in Visual Question Answering (VQA) but remain limited in fine-grained reasoning due to low-resolution inputs and noisy attention aggregation. We propose \textbf{Head Aware Visual Cropping (HAVC)}, a training-free method that improves visual grounding by leveraging a selectively refined subset of attention heads. HAVC first filters heads through an OCR-based diagnostic task, ensuring that only those with genuine grounding ability are retained. At inference, these heads are further refined using spatial entropy for stronger spatial concentration and gradient sensitivity for predictive contribution. The fused signals produce a reliable Visual Cropping Guidance Map, which highlights the most task-relevant region and guides the cropping of a subimage subsequently provided to the MLLM together with the image-question pair. Extensive experiments on multiple fine-grained VQA benchmarks demonstrate that HAVC consistently outperforms state-of-the-art cropping strategies, achieving more precise localization, stronger visual grounding, providing a simple yet effective strategy for enhancing precision in MLLMs.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は視覚質問応答(VQA)において高い性能を示すが,低分解能入力とノイズアテンションアグリゲーションによるきめ細かな推論には制限がある。
本稿では,注目ヘッドのサブセットを選択的に洗練することにより視覚的接地を改善する訓練自由度手法である,HAVC(textbf{Head Aware Visual Cropping)を提案する。
HAVCはまず、OCRベースの診断タスクを通じて頭部をフィルタリングし、真の接地能力を持つ者のみを確実に保持する。
推測では、これらのヘッドは空間エントロピーによりより強い空間濃度と予測貢献の勾配感度を向上する。
融合信号は、最もタスク関連性の高い領域をハイライトし、その後、画像検索ペアと共にMLLMに提供されるサブイメージのトリミングをガイドする、信頼性の高いビジュアルクロッピングガイダンスマップを生成する。
複数の粒度のVQAベンチマークによる大規模な実験により、HAVCは最先端の収穫戦略を一貫して上回り、より精密なローカライゼーション、より強力な視覚的接地を実現し、MLLMの精度を高めるための単純かつ効果的な戦略を提供する。
関連論文リスト
- Pyramid Token Pruning for High-Resolution Large Vision-Language Models via Region, Token, and Instruction-Guided Importance [60.028070589466445]
Pyramid Token Pruning (PTP) は、階層的にボトムアップの視覚的サリエンスとトークンレベルをトップダウンの指導誘導の関連性と統合する、トレーニング不要の戦略である。
PTPは計算コスト、メモリ使用量、推論遅延を大幅に削減し、性能劣化を無視できることを示した。
論文 参考訳(メタデータ) (2025-09-19T07:28:17Z) - HRSeg: High-Resolution Visual Perception and Enhancement for Reasoning Segmentation [74.1872891313184]
HRSegは高精細な知覚を持つ効率的なモデルである。
高分解能知覚(HRP)と高分解能増強(HRE)の2つの重要な革新を特徴としている。
論文 参考訳(メタデータ) (2025-07-17T08:09:31Z) - Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。
グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。
評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-28T17:59:54Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - TOPIQ: A Top-down Approach from Semantics to Distortions for Image
Quality Assessment [53.72721476803585]
画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。
本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。
提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
論文 参考訳(メタデータ) (2023-08-06T09:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。