論文の概要: Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.23615v1
- Date: Fri, 27 Feb 2026 02:43:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.212978
- Title: Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning
- Title(参考訳): 強化学習による高分解能大規模マルチモーダルモデルのアノテーションフリービジュアル推論
- Authors: Jiacheng Yang, Anqi Chen, Yunkai Dang, Qi Fan, Cong Wang, Wenbin Li, Feng Miao, Yang Gao,
- Abstract要約: 一般的な実践は、重要な画像領域を特定し、推論中にその高解像度の画像領域を参照することである。
追加のアノテーションに頼ることなく推論をサポートするために、モデルの基礎的能力をどのように拡張するかは、未解決の疑問である。
ハイレゾリューションを提案する。
Free Reasoning Technique (HART)は、LMMがキー領域に集中して自己検証できるクローズドループフレームワークである。
- 参考スコア(独自算出の注目度): 17.81009868725361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Large Multimodal Models (LMMs) struggle with high-resolution visual inputs during the reasoning process, as the number of image tokens increases quadratically with resolution, introducing substantial redundancy and irrelevant information. A common practice is to identify key image regions and refer to their high-resolution counterparts during reasoning, typically trained with external visual supervision. However, such visual supervision cues require costly grounding labels from human annotators. Meanwhile, it remains an open question how to enhance a model's grounding abilities to support reasoning without relying on additional annotations. In this paper, we propose High-resolution Annotation-free Reasoning Technique (HART), a closed-loop framework that enables LMMs to focus on and self-verify key regions of high-resolution visual inputs. HART incorporates a post-training paradigm in which we design Advantage Preference Group Relative Policy Optimization (AP-GRPO) to encourage accurate localization of key regions. Notably, HART provides explainable reasoning pathways and enables efficient optimization of localization. Extensive experiments demonstrate that HART improves performance across a wide range of high-resolution visual tasks, consistently outperforming strong baselines. When applied to post-train Qwen2.5-VL-7B, HART even surpasses larger-scale models such as Qwen2.5-VL-72B and LLaVA-OneVision-72B on high-resolution, vision-centric benchmarks.
- Abstract(参考訳): 現在のLMM(Large Multimodal Models)は、画像トークンの数が解像度とともに2次的に増加し、相当な冗長性と無関係な情報をもたらすため、推論過程において高解像度の視覚入力に苦慮している。
一般的な実践は、主要な画像領域を特定し、推論中に高解像度の画像領域を参照することであり、通常は外的視覚監督で訓練される。
しかし、このような視覚的な監督手法は、人間のアノテーションからラベルを盗むのにコストがかかる。
一方で、追加のアノテーションに頼ることなく、推論をサポートするモデルの基礎的能力をどのように拡張するかは、未解決の疑問である。
本稿では,LMMが高解像度視覚入力のキー領域に集中して自己検証できるクローズドループフレームワークであるHigh- resolution Annotation-free Reasoning Technique (HART)を提案する。
HARTは、重要領域の正確なローカライゼーションを促進するためにAdvantage Preference Group Relative Policy Optimization (AP-GRPO)を設計するポストトレーニングパラダイムを取り入れている。
特に、HARTは説明可能な推論経路を提供し、ローカライゼーションの効率的な最適化を可能にする。
大規模な実験により、HARTは幅広い高解像度の視覚タスクのパフォーマンスを向上し、一貫して強いベースラインを上回ります。
ポストトレインのQwen2.5-VL-7Bに適用した場合、HARTは高解像度のビジョン中心のベンチマークでQwen2.5-VL-72BやLLaVA-OneVision-72Bのような大規模モデルを上回る。
関連論文リスト
- Head-Aware Visual Cropping: Enhancing Fine-Grained VQA with Attention-Guided Subimage [4.771792258699647]
我々は,注目ヘッドの選択的に洗練されたサブセットを活用することにより,視覚的接地を改善する訓練不要な方法であるtextbfHead Visual Cropping (HAVC) を提案する。
複数の微細なVQAベンチマークの実験は、HAVCが最先端の収穫戦略を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-01-30T02:46:55Z) - Zooming into Comics: Region-Aware RL Improves Fine-Grained Comic Understanding in Vision-Language Models [23.954335269506576]
漫画のような複雑な視覚的物語は視覚言語モデル(VLM)に重大な課題をもたらす
本稿では,VLMによる漫画理解のためのAI4VA-FGについて紹介する。
また,GPT-4oやGemini-2.5,Qwen2.5-VLなどのオープンソースモデルなど,最先端のプロプライエタリモデルも評価した。
論文 参考訳(メタデータ) (2025-11-09T18:27:45Z) - Pyramid Token Pruning for High-Resolution Large Vision-Language Models via Region, Token, and Instruction-Guided Importance [60.028070589466445]
Pyramid Token Pruning (PTP) は、階層的にボトムアップの視覚的サリエンスとトークンレベルをトップダウンの指導誘導の関連性と統合する、トレーニング不要の戦略である。
PTPは計算コスト、メモリ使用量、推論遅延を大幅に削減し、性能劣化を無視できることを示した。
論文 参考訳(メタデータ) (2025-09-19T07:28:17Z) - HERO: Rethinking Visual Token Early Dropping in High-Resolution Large Vision-Language Models [60.028070589466445]
本稿では,コンテンツ適応型トークン予算配分と関数対応トークン選択を統合したフレームワークHEROを提案する。
本研究は、HR-LVLMにおける効率的な推論に対する経験的洞察と実践的解決策の両方を提供する。
論文 参考訳(メタデータ) (2025-09-16T13:22:08Z) - Learning Active Perception via Self-Evolving Preference Optimization for GUI Grounding [31.57375084036447]
視覚言語モデル(VLM)は近年,視覚知覚と言語推論の橋渡しにおいて大きな進歩を遂げている。
マルチステップ認識機能を持つVLMを段階的に支援する自己進化型フレームワークであるLASERを提案する。
提案手法はモンテカルロの品質評価とインターセクション・オーバー・ユニオン(IoU)に基づく地域品質評価を統合し,高品質な嗜好データ構築における精度と多様性を両立させる。
論文 参考訳(メタデータ) (2025-09-04T14:17:01Z) - Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL [70.1326027641056]
視覚言語モデル(VLM)は、様々なコンピュータビジョンタスクにおいて印象的な性能を達成している。
本稿では,キー画像領域に適応的な焦点付けとズームインを行うことができるChain-of-Focus(CoF)手法を提案する。
教師付き微調整と強化学習を含む2段階の訓練パイプラインを提案する。
論文 参考訳(メタデータ) (2025-05-21T12:18:15Z) - Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models [50.98559225639266]
画像全体の意味的関連性が高いサブイメージは、モデルの視覚的理解能力を維持するためによりリッチな視覚情報をカプセル化する。
Global Semantic-Guided Weight Allocator (GSWA)モジュールはその相対情報密度に基づいてサブイメージに重みを割り当てる。
SleighVLは軽量だがハイパフォーマンスなモデルであり、同等のパラメータを持つモデルよりも優れており、より大きなモデルと競合し続けている。
論文 参考訳(メタデータ) (2025-01-24T06:42:06Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Improving Vision-and-Language Reasoning via Spatial Relations Modeling [30.477235227733928]
ビジュアルコモンセンス推論(VCR)は、難しいマルチモーダルタスクである。
提案手法は,より空間的な文脈を維持するために表現を導くことができる。
VCRと他の2つの視覚・言語推論タスクであるVQAとNLVRについて、最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-09T11:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。