論文の概要: Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.05950v1
- Date: Fri, 06 Mar 2026 06:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.187251
- Title: Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models
- Title(参考訳): 効率的なビジョンランゲージモデルのためのエネルギー駆動型適応型視覚トーケンプルーニング
- Authors: Jialuo He, Huangxun Chen,
- Abstract要約: 視覚特徴空間の特異値スペクトルからトークン予算を決定するエネルギー駆動型適応型プルーニングフレームワークであるE-AdaPruneを提案する。
E-AdaPruneは、MMVet推論タスクの5.1%の大幅な向上を含む、平均0.6%の改善を継続的に達成している。
- 参考スコア(独自算出の注目度): 7.641622965415444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual token reduction is critical for accelerating Vision-Language Models (VLMs), yet most existing approaches rely on a fixed budget shared across all inputs, overlooking the substantial variation in image information density. We propose E-AdaPrune, an energy-driven adaptive pruning framework that determines the token budget from the singular value spectrum of the visual features space. By preserving a certain proportion of spectral energy, our method allocates more tokens to information-dense scenes while aggressively compressing redundant ones, without introducing additional learnable parameters. We evaluate E-AdaPrune on nine benchmarks and three VLM backbones, LLaVA-1.5-7B, LLaVA-1.5-13B, and LLaVA-NeXT-8B. Under matched average token budgets, E-AdaPrune consistently yields an average improvement of up to 0.6\%, including a significant +5.1\% relative boost on the MMVet reasoning task. Using randomized singular value decomposition, the additional latency is limited to 8ms per image.
- Abstract(参考訳): VLM(Vision-Language Models)の加速には視覚トークンの削減が不可欠だが、既存のアプローチはすべての入力で共有される固定予算に依存しており、画像情報密度のかなりの変動を見越している。
視覚特徴空間の特異値スペクトルからトークン予算を決定するエネルギー駆動型適応型プルーニングフレームワークであるE-AdaPruneを提案する。
スペクトルエネルギーの一定割合を保存することにより、学習可能なパラメータを追加することなく、余分な部分を積極的に圧縮しながら、情報密度のシーンにより多くのトークンを割り当てる。
9つのベンチマークと3つのVLMバックボーン、LLaVA-1.5-7B、LLaVA-1.5-13B、LLaVA-NeXT-8BでE-AdaPruneを評価する。
一致した平均トークン予算の下では、E-AdaPruneは、MMVet推論タスクにおける重要な+5.1\%の相対的な増加を含む、常に0.6\%の平均的な改善を得られる。
ランダム化特異値分解を用いると、追加のレイテンシは画像あたり8msに制限される。
関連論文リスト
- Token-Level Inference-Time Alignment for Vision-Language Models [58.41370989069588]
VLM(Vision-Language Models)は、現代のマルチモーダルインテリジェンスの重要なバックボーンとなっている。
本稿では,基本VLMを凍結し,その分布を近似する報酬モデルをトレーニングする軽量フレームワークTITAを提案する。
推測中、暗黙の選好信号は報酬モデルと目標VLMの対数確率比として抽出され、密集した自己回帰フィードバックが得られる。
論文 参考訳(メタデータ) (2025-10-20T09:58:03Z) - Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering [32.58783147499582]
既存の視覚トークンプルーニング手法は、静的戦略によるプロンプトアライメントと視覚的保存を目標としている。
両目的被覆問題として視覚トークンプルーニングを再構成する多目的平衡被覆法(MoB)を提案する。
MoBは、入力されたビジュアルトークンの数に関して、証明可能なパフォーマンスバウンダリと線形スケーラビリティを提供する。
論文 参考訳(メタデータ) (2025-05-15T09:43:28Z) - TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.43860351559185]
高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。
我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文 参考訳(メタデータ) (2025-03-24T01:47:26Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。