論文の概要: SVD-Prune: Training-Free Token Pruning For Efficient Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.11530v1
- Date: Mon, 13 Apr 2026 14:30:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.604683
- Title: SVD-Prune: Training-Free Token Pruning For Efficient Vision-Language Models
- Title(参考訳): SVD-Prune:効率的なビジョンランゲージモデルのためのトレーニング不要のトーケンプルーニング
- Authors: Yvon Apedo, Martyna Poreba, Michal Szczepanski, Samia Bouchafa,
- Abstract要約: そこで本研究では,Singular Value Decompositionに基づく,学習不要でプラグアンドプレイのトークンプルーニング手法であるSVD-Pruneを提案する。
ビジョントークンの特徴行列を分解し、統計レバレッジスコアを使用してトップKトークンを選択する。
実験の結果、SVD-Prune は極端視覚トークンの予算下でのプルーニング手法よりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 0.6299766708197883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLM) have revolutionized multimodal learning by jointly processing visual and textual information. Yet, they face significant challenges due to the high computational and memory demands of processing long sequences of vision tokens. Many existing methods rely on local heuristics, such as attention scores or token norms. However, these criteria suffer from positional bias and information dispersion, limiting their ability to preserve essential content at high pruning ratios and leading to performance degradation on visually detailed images. To address these issues, we propose SVD-Prune, a trainingfree, plug-and-play token pruning method based on Singular Value Decomposition. It decomposes the vision token feature matrix and selects the top-K tokens using statistical leverage scores, ensuring only tokens contributing most to the dominant global variance are preserved. Experiments show that SVD-Prune consistently outperforms prior pruning methods under extreme vision token budgets, maintaining strong performance even with 32 and 16 vision tokens.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚情報とテキスト情報を共同処理することでマルチモーダル学習に革命をもたらした。
しかし、彼らは視覚トークンの長いシーケンスを処理する際の高い計算とメモリ要求のために大きな課題に直面している。
既存の多くの手法は、注意スコアやトークンノルムのような局所的なヒューリスティックに依存している。
しかし、これらの基準は位置バイアスと情報分散に悩まされ、高いプルーニング比で本質的なコンテンツを保存できる能力が制限され、視覚的詳細画像のパフォーマンス低下につながる。
これらの問題に対処するために,Singular Value Decompositionに基づく,トレーニング不要でプラグアンドプレイのトークンプルニング手法であるSVD-Pruneを提案する。
視覚トークンの特徴行列を分解し、統計レバレッジスコアを使用してトップKトークンを選択する。
実験により、SVD-Pruneは、32と16の視覚トークンでも高い性能を維持しながら、極度の視覚トークン予算の下で、先行プルーニング手法よりも一貫して優れていた。
関連論文リスト
- ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models [7.7352936204066]
本稿では,タスク関連性と情報多様性のバランスとして,視覚トークンプルーニングをモデル化する新しいゼロショット手法を提案する。
本手法は,精度の低下を最小限に抑えて,最先端技術に適合または超越した性能を実現する。
これらのゲインには、GPUメモリフットプリントの大幅な削減と推論レイテンシが伴っている。
論文 参考訳(メタデータ) (2025-10-20T06:18:47Z) - Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention [50.97683288777336]
MLLM(Multimodal Large Language Models)は、巨大な視覚トークンに依存するため、計算オーバーヘッドがかなり大きい。
近年の研究では、この問題を緩和するためにトークンプルーニングが検討されている。
本稿では,効率的な推論のためのビジュアルトークン・プルーニング・フレームワークであるHoloVを提案する。
論文 参考訳(メタデータ) (2025-10-03T11:33:40Z) - CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models [75.88232735646018]
LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。
既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。
我々は,LVLMで処理される前に冗長な視覚トークンを予測・削除するために,Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法であるCoViPALを提案する。
論文 参考訳(メタデータ) (2025-08-24T07:47:00Z) - TransPrune: Token Transition Pruning for Efficient Large Vision-Language Model [18.541556978014764]
LVLM(Large Vision-Language Models)は、高度なマルチモーダル学習を持つが、多数の視覚トークンのために計算コストが高い。
トレーニング不要かつ効率的なトークンプルーニング手法であるTransPruneを提案する。
論文 参考訳(メタデータ) (2025-07-28T08:44:58Z) - VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。
しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。
視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:55Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models [85.51753014478315]
本稿では,新しいプラグ・アンド・プレイ・トレーニングフリープルーニング手法であるAdaptPruneを紹介する。
空間距離とトークン類似性を適応的NMSアプローチと組み合わせることで、従来の注意に基づくプルーニングに基づいている。
当社のアプローチはトークンの重要性を総合的に評価することを保証するとともに,プルーニング決定を大幅に改善する。
論文 参考訳(メタデータ) (2025-03-11T03:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。