論文の概要: Language-Guided Token Compression with Reinforcement Learning in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.13394v1
- Date: Wed, 11 Mar 2026 09:52:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.158963
- Title: Language-Guided Token Compression with Reinforcement Learning in Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルにおける強化学習による言語指導型トーケン圧縮
- Authors: Sihan Cao, Jianwei Zhang, Pengcheng Zheng, Jiaxin Yan, Caiyan Qin, Yalan Ye, Wei Dong, Peng Wang, Yang Yang, Chaoning Zhang,
- Abstract要約: TPRLは、言語誘導シーケンシャル最適化を通じて適応的なプルーニング軌跡を学習し、エンドタスク性能に直結する。
我々は、明示的な状態遷移を伴う逐次決定プロセスとして視覚トークンプルーニングを定式化する。
我々は、自己教師付きオートエンコーダを用いて、視覚トークンを効率的なポリシー学習のためのコンパクトな状態表現に圧縮する。
- 参考スコア(独自算出の注目度): 19.87835200940665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) incur substantial inference costs due to the processing of a vast number of visual tokens. Existing methods typically struggle to model progressive visual token reduction as a multi-step decision process with sequential dependencies and often rely on hand-engineered scoring rules that lack adaptive optimization for complex reasoning trajectories. To overcome these limitations, we propose TPRL, a reinforcement learning framework that learns adaptive pruning trajectories through language-guided sequential optimization tied directly to end-task performance. We formulate visual token pruning as a sequential decision process with explicit state transitions and employ a self-supervised autoencoder to compress visual tokens into a compact state representation for efficient policy learning. The pruning policy is initialized through learning from demonstrations and subsequently fine-tuned using Proximal Policy Optimization (PPO) to jointly optimize task accuracy and computational efficiency. Our experimental results demonstrate that TPRL removes up to 66.7\% of visual tokens and achieves up to a 54.2\% reduction in FLOPs during inference while maintaining a near-lossless average accuracy drop of only 0.7\%. Code is released at \href{https://github.com/MagicVicCoder/TPRL}{\textcolor{mypink}{https://github.com/MagicVicCoder/TPRL}}.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、膨大な数の視覚トークンを処理するため、かなりの推論コストを発生させる。
既存の方法では、逐次的な依存関係を持つ多段階決定プロセスとしてプログレッシブな視覚トークンの削減をモデル化するのに苦労し、複雑な推論軌道に対する適応最適化に欠ける手作業によるスコアリングルールにしばしば依存する。
これらの制約を克服するために,言語誘導シーケンシャル最適化により適応的プルーニング軌跡を学習する強化学習フレームワークであるTPRLを提案する。
我々は、視覚トークンのプルーニングを、明示的な状態遷移を伴う逐次決定プロセスとして定式化し、自己教師付きオートエンコーダを用いて、視覚トークンをコンパクトな状態表現に圧縮し、効率的なポリシー学習を行う。
プルーニングポリシは、デモから学び、その後PPO(Proximal Policy Optimization)を使用して微調整を行い、タスク精度と計算効率を共同で最適化する。
実験の結果,TPRLは最大66.7%の視覚トークンを除去し,約0.7%の精度低下を維持しつつ,推論中に最大54.2倍のFLOPを減少させることがわかった。
コードは \href{https://github.com/MagicVicCoder/TPRL}{\textcolor{mypink}{https://github.com/MagicVicCoder/TPRL}} でリリースされる。
関連論文リスト
- ForgeryVCR: Visual-Centric Reasoning via Efficient Forensic Tools in MLLMs for Image Forgery Detection and Localization [62.03035862528452]
ForgeryVCRは、視覚中心推論(Visual-Centric Reasoning)を通じて、知覚できないトレースを明示的な視覚中間体に物質化するフレームワークである。
ForgeryVCRは、検出タスクとローカライゼーションタスクの両方において、最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-15T11:14:47Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - AutoPrune: Each Complexity Deserves a Pruning Policy [58.448785378705566]
Complexity Pruning(AutoPrune)は、プルングポリシーをさまざまなサンプルやタスクの複雑さに合わせて調整する、トレーニングフリーのプラグイン・アンド・プレイフレームワークである。
我々はAutoPruneを、標準的な視覚適応タスクと、自律運転のためのビジョン・ランゲージ・アクションモデルで評価する。
論文 参考訳(メタデータ) (2025-09-28T15:09:00Z) - A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models [94.49953824684853]
人間の認知に触発された動的刈り取りフレームワークGlimpsePruneを導入する。
データ駆動の 'glimpse' を受け取り、応答生成の前に単一のフォワードパスで無関係な視覚トークンをプルーンする。
強化されたGlimpsePrune+は、同様に高いプルーニング率を維持しながら、ベースライン性能の110%を達成する。
論文 参考訳(メタデータ) (2025-08-03T02:15:43Z) - Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping [13.846838416902575]
重要なボトルネックは、きめ細かい画像理解に必要な視覚トークンの拡散に起因する。
視覚言語モデルにおけるトレーニングと推論の非効率性に対処する統合フレームワークであるSkip-Visionを提案する。
実験の結果,Skip-Visionはトレーニング時間を最大35%短縮し,FLOPを75%,レイテンシを45%短縮した。
論文 参考訳(メタデータ) (2025-03-26T04:16:48Z) - PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [68.8373788348678]
ビジュアルインストラクションチューニングは、事前訓練されたマルチモーダル大言語モデルに人間の指示に従うように適応する。
PRISMは、効率的な視覚的命令選択のための最初のトレーニング不要のフレームワークである。
データ選択とモデルチューニングのエンドツーエンドの時間を従来のパイプラインの30%に短縮する。
論文 参考訳(メタデータ) (2025-02-17T18:43:41Z) - Pruning All-Rounder: Rethinking and Improving Inference Efficiency for Large Vision Language Models [42.124670377223175]
我々は Pruning All-Rounder (PAR) と呼ばれる推論加速のための新しいフレームワークを提案する。
PARは自己教師付き学習方式により、パフォーマンスと効率のバランスが優れている。特に、PARは高い柔軟性を持ち、様々なアクセラレーションシナリオに対処する複数のプルーニングバージョンを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:02:35Z) - When Does Visual Prompting Outperform Linear Probing for Vision-Language Models? A Likelihood Perspective [57.05315507519704]
本稿では,視覚的プロンプトと線形探索の利点を比較分析するために,ログ類似率(LLR)アプローチを提案する。
本測定は,最大で100倍の時間短縮が可能であり,予測精度は最大91%に達する。
論文 参考訳(メタデータ) (2024-09-03T12:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。