論文の概要: AsymVLM: Asymmetric Token Pruning for Efficient Vision-Language Model Inference
- arxiv url: http://arxiv.org/abs/2605.29535v1
- Date: Thu, 28 May 2026 07:49:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.036018
- Title: AsymVLM: Asymmetric Token Pruning for Efficient Vision-Language Model Inference
- Title(参考訳): AsymVLM: 効率的な視覚・言語モデル推論のための非対称トーケンプルーニング
- Authors: Yilin Feng, Ahmed Burak Gulhan, Mahmut Taylan Kandemir,
- Abstract要約: Vision-Language Models (VLM) は、比較的少数のテキストトークンとともに、画像ごとに数千のビジュアルトークンを処理する。
本稿では,前処理前の視覚トークンにアグレッシブプルーニングを適用したAsymVLMを提案する。
実験の結果,AsymVLMは最先端手法のうち,最大54%のFLOPを節約できることがわかった。
- 参考スコア(独自算出の注目度): 7.243327337529763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) process thousands of visual tokens per image alongside comparatively few text tokens, yet existing compression methods treat both modalities uniformly. We observe that the two modalities have fundamentally different properties: vision tokens are spatially redundant and dominate prefill, while text tokens are causally dependent and accumulate during decoding. Based on this asymmetry, we propose and empirically evaluate AsymVLM, which applies aggressive pruning to vision tokens before prefill using a learned importance scorer with per-sample adaptive budgeting, and temporal threshold-based eviction to text tokens only when they exceed a fixed budget. Our experiments indicate that AsymVLM achieves the highest FLOPs savings (up to 54%) among state-of-the-art methods while outperforming existing approaches by 2--3% on document and chart understanding tasks where visual information is spatially localized and query-specific, and maintaining competitive accuracy on holistic benchmarks. In text-dominated scenarios, our eviction strategy substantially outperforms standard LLM cache compression methods by adapting to the short-context nature of VLM.
- Abstract(参考訳): Vision-Language Models (VLM) は比較的少数のテキストトークンとともに画像ごとに数千のビジュアルトークンを処理するが、既存の圧縮手法は両方のモダリティを均一に扱う。
視覚トークンは空間的に冗長であり、プリフィルを支配し、テキストトークンは因果的に依存し、復号中に蓄積される。
この非対称性に基づいて,AsymVLM を試作し,前処理前の視覚トークンにアグレッシブプルーニングを適用した。
実験の結果,AsymVLMは従来の手法よりも2-3%向上し,視覚情報の空間的局所化,クエリ固有化,総合的ベンチマークによる競合精度の維持が図られた。
テキストを優先したシナリオでは,VLMの短文特性に適応することで,標準的なLCMキャッシュ圧縮手法よりも大幅に性能が向上する。
関連論文リスト
- Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning [82.39668822222386]
ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。
空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。
実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
論文 参考訳(メタデータ) (2026-02-03T00:51:03Z) - AdaTok: Adaptive Token Compression with Object-Aware Representations for Efficient Multimodal LLMs [29.68162972167947]
適応トークン圧縮のためのオブジェクトレベルのトークンマージ戦略を提案する。
当社のアプローチでは,バニラモデルのパフォーマンスの96%を達成しながら,トークンの10%しか使用していません。
論文 参考訳(メタデータ) (2025-11-18T06:12:15Z) - ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models [7.7352936204066]
本稿では,タスク関連性と情報多様性のバランスとして,視覚トークンプルーニングをモデル化する新しいゼロショット手法を提案する。
本手法は,精度の低下を最小限に抑えて,最先端技術に適合または超越した性能を実現する。
これらのゲインには、GPUメモリフットプリントの大幅な削減と推論レイテンシが伴っている。
論文 参考訳(メタデータ) (2025-10-20T06:18:47Z) - CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models [75.88232735646018]
LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。
既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。
我々は,LVLMで処理される前に冗長な視覚トークンを予測・削除するために,Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法であるCoViPALを提案する。
論文 参考訳(メタデータ) (2025-08-24T07:47:00Z) - Revisit What You See: Disclose Language Prior in Vision Tokens for LVLM Decoding [6.612630497074871]
LVLM(Large Vision-Language Models)は、視覚認識と言語理解を統合することで、マルチモーダルタスクにおける強力なパフォーマンスを実現する。
テキスト生成のガイドとして視覚トークンを参照するトレーニング不要な復号法であるReVisiTを提案する。
論文 参考訳(メタデータ) (2025-06-11T08:46:55Z) - Accelerating Multimodal Large Language Models by Searching Optimal Vision Token Reduction [62.8375542401319]
MLLM(Multimodal Large Language Models)は、入力イメージを視覚トークンとしてエンコードし、それらを言語バックボーンに入力する。
画像解像度が大きくなるにつれて、視覚トークンの数は2次的に増加し、膨大な計算コストがかかる。
本稿では,各層を浅層から深層まで保持する最小限の視覚トークンを求めるために,欲求探索アルゴリズム(G-Search)を提案する。
論文 参考訳(メタデータ) (2024-11-30T18:54:32Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。