論文の概要: AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition
- arxiv url: http://arxiv.org/abs/2512.03794v1
- Date: Wed, 03 Dec 2025 13:43:30 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:13:33.229358
- Title: AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition
- Title(参考訳): AdaptVision:Adaptive Visual Acquisitionによる効率的な視覚言語モデル
- Authors: Zichuan Lin, Yicheng Liu, Yang Yang, Lvfang Tao, Deheng Ye,
- Abstract要約: AdaptVisionは、粗いアプローチによる適応的な視覚トークン取得を可能にする効率的なVLMパラダイムである。
本稿では,AdaptVisionが最先端のVLM手法よりもはるかに少ない視覚トークンを消費し,優れた性能を実現することを示す。
- 参考スコア(独自算出の注目度): 21.989922235835067
- License:
- Abstract: Vision-Language Models (VLMs) have achieved remarkable success in visual question answering tasks, but their reliance on large numbers of visual tokens introduces significant computational overhead. While existing efficient VLM approaches reduce visual tokens through fixed-ratio compression, they operate passively and lack the ability to adapt to varying task requirements. This motivates a fundamental question: Can VLMs autonomously determine the minimum number of visual tokens required for each sample? Inspired by human active vision mechanisms, we introduce AdaptVision, an efficient VLM paradigm that enables adaptive visual token acquisition through a coarse-to-fine approach. Our model initially processes compressed visual tokens from low-resolution images and selectively acquires additional visual information by invoking a bounding box tool to crop key regions when necessary. We train AdaptVision using a reinforcement learning framework that carefully balances accuracy and efficiency. Central to our approach is Decoupled Turn Policy Optimization (DTPO), which decouples the learning objective into two components: (1) tool learning, which optimizes correct tool utilization, and (2) accuracy improvement, which refines the generated responses to improve answer correctness. Based on this formulation, we further decouple advantage estimation by computing separate advantages for tokens associated with each objective. This formulation enables more effective optimization for AdaptVision compared to vanilla GRPO. Comprehensive experiments across multiple VQA benchmarks demonstrate that AdaptVision achieves superior performance while consuming substantially fewer visual tokens than state-of-the-art efficient VLM methods.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚的質問応答タスクにおいて顕著な成功を収めてきたが、多数の視覚トークンへの依存は、計算オーバーヘッドを著しく引き起こす。
既存の効率的なVLMアプローチは、固定比圧縮によって視覚トークンを減らすが、それらは受動的に動作し、様々なタスク要求に適応する能力に欠ける。
VLMは、各サンプルに必要な最小の視覚トークン数を自律的に決定できますか?
人間の能動視覚機構にインスパイアされたAdaptVisionは,粗いアプローチによる適応的視覚トークン獲得を実現する,効率的なVLMパラダイムである。
本モデルでは,まず,低解像度画像から圧縮された視覚トークンを処理し,必要に応じてバウンディングボックスツールをクリーニングキー領域に呼び出し,付加的な視覚情報を取得する。
精度と効率を慎重にバランスする強化学習フレームワークを使用してAdaptVisionを訓練する。
提案手法の中心となるのは,学習目標を2つのコンポーネントに分割する「Decoupled Turn Policy Optimization (DTPO)」であり,(1) ツール利用を最適化するツール学習,(2) 回答の正しさを改善するために生成した応答を洗練する精度向上である。
この定式化に基づいて、各目的に関連付けられたトークンの利点を別々に計算することで、さらに利点推定を分離する。
この定式化により、バニラGRPOよりも効果的なAdaptVisionの最適化が可能になる。
複数のVQAベンチマークの総合的な実験により、AdaptVisionは最先端の効率的なVLM手法よりもはるかに少ない視覚トークンを消費しながら、優れたパフォーマンスを達成することが示された。
関連論文リスト
- Learning Active Perception via Self-Evolving Preference Optimization for GUI Grounding [31.57375084036447]
視覚言語モデル(VLM)は近年,視覚知覚と言語推論の橋渡しにおいて大きな進歩を遂げている。
マルチステップ認識機能を持つVLMを段階的に支援する自己進化型フレームワークであるLASERを提案する。
提案手法はモンテカルロの品質評価とインターセクション・オーバー・ユニオン(IoU)に基づく地域品質評価を統合し,高品質な嗜好データ構築における精度と多様性を両立させる。
論文 参考訳(メタデータ) (2025-09-04T14:17:01Z) - VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。
しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。
視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:55Z) - End-to-End Vision Tokenizer Tuning [73.3065542220568]
低レベルの再構築のために最適化された視覚トークンーは、様々な表現と意味論を必要とする下流タスクである。
視覚トークン化の損失は、ターゲットタスクの表現ボトルネックになる可能性がある。
本研究では,視覚トークン化と目標自己回帰タスクを協調的に最適化するエンド・ツー・エンドの視覚トークン化チューニング手法であるETTを提案する。
論文 参考訳(メタデータ) (2025-05-15T17:59:39Z) - Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection [53.558449071113245]
Vision-Language Models (VLM) は、アライメントされたビジュアルエンコーダを利用して、画像をビジュアルトークンに変換することで、バックボーン大言語モデル (LLM) によるテキストと同じように処理することができる。
視覚言語モデリングの最近の進歩は、すべての符号化されたサブイメージをモデルに供給する画像トリミング技術を導入している。
本稿では,既存のVLMとシームレスに統合し,細粒度処理能力を高める軽量で普遍的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:33:31Z) - From Holistic to Localized: Local Enhanced Adapters for Efficient Visual Instruction Fine-Tuning [102.18178065928426]
効率的なビジュアルインストラクションファインタニング(EVIT)は、最小の計算オーバーヘッドで下流タスクにマルチモーダル大言語モデル(MLLM)を適用することを目指している。
本稿では,Dual Low-Rank Adaptation (Dual-LoRA)を提案する。
論文 参考訳(メタデータ) (2024-11-19T11:03:09Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。