論文の概要: PIO-FVLM: Rethinking Training-Free Visual Token Reduction for VLM Acceleration from an Inference-Objective Perspective
- arxiv url: http://arxiv.org/abs/2602.04657v2
- Date: Thu, 05 Feb 2026 12:00:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 14:11:23.889395
- Title: PIO-FVLM: Rethinking Training-Free Visual Token Reduction for VLM Acceleration from an Inference-Objective Perspective
- Title(参考訳): PIO-FVLM:推論客観的視点によるVLM加速のためのトレーニング不要な視覚的トーケン低減の再考
- Authors: Haokui Zhang, Congyang Ou, Dawei Yan, Peng Wang, Qingsen Yan, Ying Li, Rong Xiao, Chunhua Shen,
- Abstract要約: 本稿では,視覚モデル(VLM)における冗長な視覚トークンを減らし,推論を高速化するPIO-FVLMを提案する。
提案されているPIO-FVLMは、トレーニングフリーで、FlashAttentionと互換性があり、実用的なアプリケーションやデプロイメントに親しみやすい。
LLaVA-Next-7Bでは、PIO-FVLMは視覚トークンの11.1%しか保持していないが、オリジナルのパフォーマンスの97.2%を維持している。
- 参考スコア(独自算出の注目度): 59.24570811503256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, reducing redundant visual tokens in vision-language models (VLMs) to accelerate VLM inference has emerged as a hot topic. However, most existing methods rely on heuristics constructed based on inter-visual-token similarity or cross-modal visual-text similarity, which gives rise to certain limitations in compression performance and practical deployment. In contrast, we propose PIO-FVLM from the perspective of inference objectives, which transforms visual token compression into preserving output result invariance and selects tokens primarily by their importance to this goal. Specially, vision tokens are reordered with the guidance of token-level gradient saliency generated by our designed layer-local proxy loss, a coarse constraint from the current layer to the final result. Then the most valuable vision tokens are selected following the non-maximum suppression (NMS) principle. The proposed PIO-FVLM is training-free and compatible with FlashAttention, friendly to practical application and deployment. It can be deployed independently as an encoder-free method, or combined with encoder compression approaches like VisionZip for use as an encoder-involved method. On LLaVA-Next-7B, PIO-FVLM retains just 11.1% of visual tokens but maintains 97.2% of the original performance, with a 2.67$\times$ prefill speedup, 2.11$\times$ inference speedup, 6.22$\times$ lower FLOPs, and 6.05$\times$ reduced KV Cache overhead. Our code is available at https://github.com/ocy1/PIO-FVLM.
- Abstract(参考訳): 近年,視覚言語モデル(VLM)の冗長な視覚トークンを減らし,VLM推論を高速化する手法が注目されている。
しかし、既存のほとんどの手法は、視覚的・視覚的類似性や、モーダルな視覚的・テキスト的類似性に基づくヒューリスティックな手法に依存しており、圧縮性能や実用的展開に一定の制限が生じる。
対照的に,PIO-FVLMは,視覚的トークン圧縮を出力の不変性を保った状態に変換し,その重要度を目標とするトークンを選択する。
特に、視覚トークンは、設計したレイヤローカルプロキシ損失によって生成されるトークンレベルの勾配値のガイダンス、すなわち現在のレイヤから最終結果への粗い制約によって、再順序付けされる。
次に、最も価値のある視覚トークンは、非最大抑圧(NMS)原理に従って選択される。
提案されているPIO-FVLMは、トレーニングフリーで、FlashAttentionと互換性があり、実用的なアプリケーションやデプロイメントに親しみやすい。
エンコーダフリーメソッドとして独立してデプロイしたり、VisionZipのようなエンコーダ圧縮アプローチと組み合わせて、エンコーダ関連メソッドとして使用することができる。
LLaVA-Next-7Bでは、PIO-FVLMは視覚トークンの11.1%しか保持していないが、オリジナルのパフォーマンスの97.2%を維持しており、2.67$\times$プリフィル・スピードアップ、2.11$\times$推論・スピードアップ、6.22$\times$ロウアーFLOPs、6.05$\times$削減KVキャッシュオーバーヘッドがある。
私たちのコードはhttps://github.com/ocy1/PIO-FVLMで公開されています。
関連論文リスト
- ConsensusDrop: Fusing Visual and Cross-Modal Saliency for Efficient Vision Language Models [4.273730624882391]
視覚言語モデル(VLM)は、LLMが数百のほとんど冗長な視覚トークンを処理するため、高価である。
いずれの信号も十分ではないことが示される: それらを融合することで、一意的な視覚トークン選択(ランキング)に比べて、一貫して性能が向上する。
textbfConsensusDropは、視覚エンコーダのサリエンシをクエリ対応のクロスアテンションと整合させることにより、アンフコンセンサスランキングを導出する、トレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2026-02-01T00:28:55Z) - StreamingTOM: Streaming Token Compression for Efficient Video Understanding [6.9203477336374775]
既存のアプローチはLLM後のkv-cacheのみを規制し、コストのかかるLLM前のプリフィルは変わらない。
StreamingTOMは,LLM前とLLM後の両方のボトルネックに,予測可能なレイテンシで対処する,トレーニングフリーでプラグイン&プレイの2段階フレームワークです。
実験では, 従来のSOTAと比較して, 15.7 時間で kv-cache 圧縮, 12 時間で低ピークメモリ, 2 時間で速い TTFT 圧縮を実現している。
論文 参考訳(メタデータ) (2025-10-21T03:39:41Z) - Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。
11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文 参考訳(メタデータ) (2025-02-02T13:10:06Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - VoCo-LLaMA: Towards Vision Compression with Large Language Models [31.398537194299752]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。
提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-18T05:05:12Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。