論文の概要: Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity
- arxiv url: http://arxiv.org/abs/2603.09480v1
- Date: Tue, 10 Mar 2026 10:31:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.233328
- Title: Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity
- Title(参考訳): プーン冗長性, 保存エッセンス: 相乗的重要度-多様性によるVLMの視覚トーケン圧縮
- Authors: Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie Pei,
- Abstract要約: 視覚言語モデル(VLM)は、過剰な視覚トークンの生成によって引き起こされる計算の非効率性に直面する。
2段階パイプラインを特徴とする訓練不要なSynergistic Importance-DiversityアプローチPruneSIDを提案する。
LLaVA-NeXTでは11.1%のトークン保持率で96.3%の精度、極端な圧縮速度(5.6%)で92.8%の精度を実現した。
- 参考スコア(独自算出の注目度): 54.95089105944234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) face significant computational inefficiencies caused by excessive generation of visual tokens. While prior work shows that a large fraction of visual tokens are redundant, existing compression methods struggle to balance importance preservation and information diversity. To address this, we propose PruneSID, a training-free Synergistic Importance-Diversity approach featuring a two-stage pipeline: (1) Principal Semantic Components Analysis (PSCA) for clustering tokens into semantically coherent groups, ensuring comprehensive concept coverage, and (2) Intra-group Non-Maximum Suppression (NMS) for pruning redundant tokens while preserving key representative tokens within each group. Additionally, PruneSID incorporates an information-aware dynamic compression ratio mechanism that optimizes token compression rates based on image complexity, enabling more effective average information preservation across diverse scenes. Extensive experiments demonstrate state-of-the-art performance, achieving 96.3% accuracy on LLaVA-1.5 with only 11.1% token retention, and 92.8% accuracy at extreme compression rates (5.6%) on LLaVA-NeXT, outperforming prior methods by 2.5% with 7.8 $\times$ faster prefilling speed compared to the original model. Our framework generalizes across diverse VLMs and both image and video modalities, showcasing strong cross-modal versatility. Code is available at https://github.com/ZhengyaoFang/PruneSID}{https://github.com/ZhengyaoFang/PruneSID.
- Abstract(参考訳): 視覚言語モデル(VLM)は、過剰な視覚トークンの生成によって引き起こされる計算の非効率性に直面する。
以前の研究は、視覚トークンの大部分が冗長であることを示しているが、既存の圧縮手法は、重要性の保存と情報の多様性のバランスをとるのに苦労している。
そこで本研究では,(1)意味的整合性グループにトークンをクラスタリングし,包括的概念カバレッジを確保するための主意味的コンポーネント分析(PSCA),(2)各グループ内のキー代表トークンを保存しながら冗長トークンをプルーニングするためのグループ内非最大抑圧(NMS)を提案する。
さらにPruneSIDには、画像の複雑さに基づいてトークン圧縮率を最適化する、情報認識動的圧縮比機構が組み込まれている。
大規模な実験では、LLaVA-1.5では96.3%の精度で11.1%のトークン保持しか達成せず、LLaVA-NeXTでは92.8%の精度で極端な圧縮速度(5.6%)を達成している。
我々のフレームワークは、多様なVLMと画像およびビデオのモダリティにまたがって一般化し、強力なクロスモーダルな汎用性を示す。
コードはhttps://github.com/ZhengyaoFang/PruneSID}{https://github.com/ZhengyaoFang/PruneSIDで入手できる。
関連論文リスト
- ApET: Approximation-Error Guided Token Compression for Efficient VLMs [16.4657793751671]
本稿では,近似エラーガイド付きToken圧縮フレームワークであるApETを紹介する。
ApETは、画像理解タスクのオリジナルパフォーマンスの95.2%を保持し、ビデオ理解タスクの100.4%を達成している。
ApETは無注意設計のため、FlashAttentionとシームレスに統合され、さらなる推論を可能にし、VLMのデプロイをより実用的なものにしている。
論文 参考訳(メタデータ) (2026-02-23T14:15:37Z) - DUET-VLM: Dual stage Unified Efficient Token reduction for VLM Training and Inference [14.714791872881397]
DUET-VLMは汎用的なプラグアンドプレイデュアル圧縮フレームワークである。
精度を犠牲にすることなく、視覚的(イメージ/ビデオ)入力を小さくする堅牢な適応を可能にする。
本研究は,DUET-VLMによるエンドツーエンドトレーニングに焦点を当てた。
論文 参考訳(メタデータ) (2026-02-21T14:22:49Z) - IDPruner: Harmonizing Importance and Diversity in Visual Token Pruning for MLLMs [11.254129271889035]
視覚トークンのプルーニングはMLLM推論を加速させる重要な手法として登場した。
IDPrunerは最先端のパフォーマンスを実現し、様々なアーキテクチャやタスクにまたがる優れた一般化を実現している。
論文 参考訳(メタデータ) (2026-02-10T11:20:24Z) - PIO-FVLM: Rethinking Training-Free Visual Token Reduction for VLM Acceleration from an Inference-Objective Perspective [59.24570811503256]
本稿では,視覚モデル(VLM)における冗長な視覚トークンを減らし,推論を高速化するPIO-FVLMを提案する。
提案されているPIO-FVLMは、トレーニングフリーで、FlashAttentionと互換性があり、実用的なアプリケーションやデプロイメントに親しみやすい。
LLaVA-Next-7Bでは、PIO-FVLMは視覚トークンの11.1%しか保持していないが、オリジナルのパフォーマンスの97.2%を維持している。
論文 参考訳(メタデータ) (2026-02-04T15:33:10Z) - VisionSelector: End-to-End Learnable Visual Token Compression for Efficient Multimodal LLMs [82.72388893596555]
MLLM(Multimodal Large Language Models)は、計算とメモリのボトルネックに遭遇する。
従来のトークン圧縮技術は、重要な情報を破棄するリスクを負うルールによって制約されることが多い。
我々は,トークン圧縮をエンドツーエンドの学習可能な決定プロセスに再構成する軽量なプラグアンドプレイフレームワークとして,トークン圧縮を再構成する。
論文 参考訳(メタデータ) (2025-10-18T17:54:18Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。