論文の概要: Head-Aware Visual Cropping: Enhancing Fine-Grained VQA with Attention-Guided Subimage
- arxiv url: http://arxiv.org/abs/2601.22483v1
- Date: Fri, 30 Jan 2026 02:46:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.176924
- Title: Head-Aware Visual Cropping: Enhancing Fine-Grained VQA with Attention-Guided Subimage
- Title(参考訳): ヘッドアウェア・ビジュアル・クロップ:注意誘導サブイメージによる細粒度VQAの強化
- Authors: Junfei Xie, Peng Pan, Xulong Zhang,
- Abstract要約: 我々は,注目ヘッドの選択的に洗練されたサブセットを活用することにより,視覚的接地を改善する訓練不要な方法であるtextbfHead Visual Cropping (HAVC) を提案する。
複数の微細なVQAベンチマークの実験は、HAVCが最先端の収穫戦略を一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 4.771792258699647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) show strong performance in Visual Question Answering (VQA) but remain limited in fine-grained reasoning due to low-resolution inputs and noisy attention aggregation. We propose \textbf{Head Aware Visual Cropping (HAVC)}, a training-free method that improves visual grounding by leveraging a selectively refined subset of attention heads. HAVC first filters heads through an OCR-based diagnostic task, ensuring that only those with genuine grounding ability are retained. At inference, these heads are further refined using spatial entropy for stronger spatial concentration and gradient sensitivity for predictive contribution. The fused signals produce a reliable Visual Cropping Guidance Map, which highlights the most task-relevant region and guides the cropping of a subimage subsequently provided to the MLLM together with the image-question pair. Extensive experiments on multiple fine-grained VQA benchmarks demonstrate that HAVC consistently outperforms state-of-the-art cropping strategies, achieving more precise localization, stronger visual grounding, providing a simple yet effective strategy for enhancing precision in MLLMs.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は視覚質問応答(VQA)において高い性能を示すが,低分解能入力とノイズアテンションアグリゲーションによるきめ細かな推論には制限がある。
本稿では,注目ヘッドのサブセットを選択的に洗練することにより視覚的接地を改善する訓練自由度手法である,HAVC(textbf{Head Aware Visual Cropping)を提案する。
HAVCはまず、OCRベースの診断タスクを通じて頭部をフィルタリングし、真の接地能力を持つ者のみを確実に保持する。
推測では、これらのヘッドは空間エントロピーによりより強い空間濃度と予測貢献の勾配感度を向上する。
融合信号は、最もタスク関連性の高い領域をハイライトし、その後、画像検索ペアと共にMLLMに提供されるサブイメージのトリミングをガイドする、信頼性の高いビジュアルクロッピングガイダンスマップを生成する。
複数の粒度のVQAベンチマークによる大規模な実験により、HAVCは最先端の収穫戦略を一貫して上回り、より精密なローカライゼーション、より強力な視覚的接地を実現し、MLLMの精度を高めるための単純かつ効果的な戦略を提供する。
関連論文リスト
- Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation [51.743225614196774]
マルチモーダル大言語モデル (MLLM) は視覚言語推論において顕著な進歩を遂げている。
彼らは幻覚に弱いままであり、そこで生成されたコンテンツは視覚的証拠から逸脱する。
近年の視覚強調法では、復号時に視覚トークンを補強することでこの問題に対処しようとしている。
本稿では,MLLMのトレーニングフリーフレームワークであるAdaptive Visual Reinforcement (AIR)を提案する。
論文 参考訳(メタデータ) (2026-02-27T14:18:51Z) - Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning [17.81009868725361]
一般的な実践は、重要な画像領域を特定し、推論中にその高解像度の画像領域を参照することである。
追加のアノテーションに頼ることなく推論をサポートするために、モデルの基礎的能力をどのように拡張するかは、未解決の疑問である。
ハイレゾリューションを提案する。
Free Reasoning Technique (HART)は、LMMがキー領域に集中して自己検証できるクローズドループフレームワークである。
論文 参考訳(メタデータ) (2026-02-27T02:43:35Z) - ConFoThinking: Consolidated Focused Attention Driven Thinking for Visual Question Answering [10.689628202869635]
ConFoThinkingは、指定された中間層に注意を集約することを学び、そこから下流の視覚的理解のために、正常な領域を掘り下げてズームする。
5つのVQAベンチマークの実験は、ConFoThinkingが認識性能を大幅に改善したことを示している。
論文 参考訳(メタデータ) (2026-02-26T06:28:43Z) - Text Before Vision: Staged Knowledge Injection Matters for Agentic RLVR in Ultra-High-Resolution Remote Sensing Understanding [78.26501371437013]
超高解像度(UHR)リモートセンシング(RS)のためのマルチモーダル推論は通常、視覚的エビデンス取得によってボトルネックとなる。
標準的な強化学習は、ドメインの事前構造がなくても、これらの広大な視覚空間をナビゲートするのに苦労している。
本研究では,(1)スケーラブルで知識グラフで検証された地球科学のテキストQAで冷間開始して推論構造を挿入し,(2)SFT中に同じ硬いUHR画像テキストの例で事前ウォーミングを行い,その後のツールベースのRLを安定化・増幅する,段階的な知識注入レシピを提案する。
論文 参考訳(メタデータ) (2026-02-15T16:40:33Z) - GeoEyes: On-Demand Visual Focusing for Evidence-Grounded Understanding of Ultra-High-Resolution Remote Sensing Imagery [69.05066425853326]
シンキング・ウィズ・イメージ」パラダイムは、マルチモーダルな大規模言語モデル(MLLM)がズームインツールを使って視覚的なシーンを積極的に探索することを可能にする。
これは超高分解能(UHR)リモートセンシングVQAにおいて必須であり、タスク関連キューは疎小である。
筆者らは,(1)冷間開始型SFTデータセット, UHR-CoZ(UHR-CoZ)を多種多様なズームレジームをカバーするトレーニングフレームワークであるGeoEyes,(2)エージェント強化学習手法であるAdaZoom-GRPOを提案する。
論文 参考訳(メタデータ) (2026-02-15T15:50:55Z) - Beyond Static Cropping: Layer-Adaptive Visual Localization and Decoding Enhancement [30.12584783649903]
LVLM(Large Vision-Language Models)は、画像パッチをテキスト埋め込みスペースと整列させることにより、急速に進歩しているが、固定された視覚的な予算により、イメージを均一な事前訓練解像度に再サイズする。
最近の注意誘導強化(例えば、収穫や地域中心の注意配分)は、これを緩和するが、単純な認識ベンチマークで経験的に選択された静的な「魔法の層」に強く依存する。
この静的な仮定とは対照的に,視覚的接地に関する動的視点を提案する。
様々なVQAベンチマークによる実験により、LASERは様々なレベルの複雑さを持つタスク間でVQAの精度を大幅に改善することが示された。
論文 参考訳(メタデータ) (2026-02-04T08:13:01Z) - Pyramid Token Pruning for High-Resolution Large Vision-Language Models via Region, Token, and Instruction-Guided Importance [60.028070589466445]
Pyramid Token Pruning (PTP) は、階層的にボトムアップの視覚的サリエンスとトークンレベルをトップダウンの指導誘導の関連性と統合する、トレーニング不要の戦略である。
PTPは計算コスト、メモリ使用量、推論遅延を大幅に削減し、性能劣化を無視できることを示した。
論文 参考訳(メタデータ) (2025-09-19T07:28:17Z) - HRSeg: High-Resolution Visual Perception and Enhancement for Reasoning Segmentation [74.1872891313184]
HRSegは高精細な知覚を持つ効率的なモデルである。
高分解能知覚(HRP)と高分解能増強(HRE)の2つの重要な革新を特徴としている。
論文 参考訳(メタデータ) (2025-07-17T08:09:31Z) - Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。
グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。
評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-28T17:59:54Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - TOPIQ: A Top-down Approach from Semantics to Distortions for Image
Quality Assessment [53.72721476803585]
画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。
本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。
提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
論文 参考訳(メタデータ) (2023-08-06T09:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。