論文の概要: Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration
- arxiv url: http://arxiv.org/abs/2412.13180v2
- Date: Thu, 31 Jul 2025 22:51:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.452128
- Title: Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration
- Title(参考訳): スロットル:視覚言語モデルアクセラレーションのための視覚的トーケンプルーニングの再検討
- Authors: Mark Endo, Xiaohan Wang, Serena Yeung-Levy,
- Abstract要約: 言語モデル内における視覚トークンの早期プルーニングの高速化手法について検討する。
驚くべきことに、多くのタスクで強いパフォーマンスが維持されている一方で、ローカライゼーションのような視覚中心のタスクのサブセットに対して、非常に異なる振る舞いを示す。
FEATHERは、発見された初期層プルーニング問題を解消し、関連するトークンの保存をさらに強化する簡単な手法である。
- 参考スコア(独自算出の注目度): 19.683461002518147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works on accelerating Vision-Language Models achieve strong performance across a variety of vision-language tasks despite highly compressing visual information. In this work, we examine the popular acceleration approach of early pruning of visual tokens inside the language model. Surprisingly, we find that while strong performance is maintained across many tasks, it exhibits drastically different behavior for a subset of vision-centric tasks such as localization. Upon further investigation, we uncover a core issue with the acceleration approach where most tokens towards the top of the image are pruned away. Yet, on many benchmarks aiming to evaluate vision-centric capabilities, strong performance persists with the flawed pruning strategy, highlighting these benchmarks' limited ability to assess fine-grained visual capabilities. Based on these findings, we propose FEATHER (Fast and Effective Acceleration wiTH Ensemble cRiteria), a straightforward approach that resolves the discovered early-layer pruning issue and further enhances the preservation of relevant tokens via multistage pruning with early uniform sampling to ensure broad image coverage. With comparable computational savings, we find that FEATHER achieves more than 5x performance improvement on the vision-centric localization benchmarks compared to the original acceleration approach.
- Abstract(参考訳): 近年のビジョン・ランゲージ・モデルの高速化に関する研究は、高度に圧縮された視覚情報にもかかわらず、様々な視覚言語タスクにおいて高い性能を達成している。
本研究では,言語モデル内における視覚トークンの早期プルーニングにおけるアクセラレーション手法について検討する。
驚くべきことに、多くのタスクにおいて強いパフォーマンスが維持されている一方で、ローカライゼーションのような視覚中心のタスクのサブセットに対して、非常に異なる振る舞いを示す。
さらなる調査で、画像の上部へのトークンの大半が取り除かれてしまうアクセラレーションアプローチのコア問題を明らかにする。
しかし、視覚中心の能力を評価することを目的とした多くのベンチマークにおいて、強力なパフォーマンスは欠陥のあるプルーニング戦略に続き、これらのベンチマークがきめ細かい視覚能力を評価する能力に制限があることを強調している。
これらの知見に基づいて、発見された初期層プルーニング問題を解消し、早期均一サンプリングによる多段プルーニングによる関連トークンの保存を強化し、幅広い画像カバレッジを確保するための簡単なアプローチであるFEATHER(Fast and Effective Acceleration wiTH Ensemble cRiteria)を提案する。
FEATHERは、従来の加速度法と比較して、視覚中心のローカライゼーションベンチマークで5倍以上の性能向上を実現している。
関連論文リスト
- A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models [94.49953824684853]
人間の認知に触発された動的刈り取りフレームワークGlimpsePruneを導入する。
データ駆動の 'glimpse' を受け取り、応答生成の前に単一のフォワードパスで無関係な視覚トークンをプルーンする。
強化されたGlimpsePrune+は、同様に高いプルーニング率を維持しながら、ベースライン性能の110%を達成する。
論文 参考訳(メタデータ) (2025-08-03T02:15:43Z) - VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。
しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。
視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:55Z) - GreedyPrune: Retenting Critical Visual Token Set for Large Vision Language Models [5.025353943896242]
GreedyPruneは、セマンティックサリエンシと視覚的多様性を最適化するために設計された、トレーニング不要のビジュアルトークンプルーニングアルゴリズムである。
GreedyPruneは様々なマルチモーダルタスクやモデルにまたがって最先端の精度を実現し、エンドツーエンドの推論遅延を大幅に低減することを示す。
論文 参考訳(メタデータ) (2025-06-16T07:21:11Z) - VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models [57.2662376527586]
VScanは2段階のビジュアルトークン削減フレームワークである。
1)グローバルスキャンとローカルスキャンを視覚的エンコーディング中にマージすることで,(2)言語モデルの中間層にプルーニングを導入する。
VScanはプリフィルの2.91$times$スピードアップとFLOPの10$times$ダウンを実現し、オリジナルのパフォーマンスの95.4%を維持した。
論文 参考訳(メタデータ) (2025-05-28T17:59:08Z) - STAR: Stage-Wise Attention-Guided Token Reduction for Efficient Large Vision-Language Models Inference [3.9464481148889354]
我々は,グローバルな視点からトークンプルーニングにアプローチする,トレーニングフリーのプラグアンドプレイフレームワークSTAR(Stage-wise Attention-guided token Reduction)を提案する。
単一ポイントでプルーニングする代わりに、STARは視覚的自己注意に基づく早期プルーニングで冗長な低レベル特徴を除去し、タスク非関連トークンを捨てるために、クロスモーダルな注意でガイドされる後期プルーニングという2つの相補的な段階において注意誘導還元を行う。
論文 参考訳(メタデータ) (2025-05-18T10:44:45Z) - Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。
既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。
LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文 参考訳(メタデータ) (2025-05-17T10:22:29Z) - Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping [13.846838416902575]
重要なボトルネックは、きめ細かい画像理解に必要な視覚トークンの拡散に起因する。
視覚言語モデルにおけるトレーニングと推論の非効率性に対処する統合フレームワークであるSkip-Visionを提案する。
実験の結果,Skip-Visionはトレーニング時間を最大35%短縮し,FLOPを75%,レイテンシを45%短縮した。
論文 参考訳(メタデータ) (2025-03-26T04:16:48Z) - TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.43860351559185]
高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。
我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文 参考訳(メタデータ) (2025-03-24T01:47:26Z) - FCoT-VL:Advancing Text-oriented Large Vision-Language Models with Efficient Visual Token Compression [16.53645461974695]
現在の訓練不要なビジュアルトークン圧縮法は、高解像度画像を含むタスクにおいて深刻な性能劣化を示す。
テキスト指向視覚大言語モデル(VLLM)の高解像度シナリオにおける効率的なビジュアルトークン圧縮フレームワークを提案する。
提案手法は,テキスト指向ベンチマークにおいて,ベースラインよりも高い性能を保ちながら,計算オーバーヘッドを大幅に低減する。
論文 参考訳(メタデータ) (2025-02-22T16:05:33Z) - VisionZip: Longer is Better but Not Necessary in Vision Language Models [53.199716363090154]
近年の視覚言語モデルの進歩は、視覚トークンの長さを増大させることで性能を向上している。
CLIPやSigLIPのような一般的なビジョンエンコーダによって生成されるビジュアルトークンには、かなりの冗長性が含まれている。
言語モデルに入力するための情報トークンのセットを選択する方法であるVisionZipを紹介する。
論文 参考訳(メタデータ) (2024-12-05T18:59:53Z) - FocusLLaVA: A Coarse-to-Fine Approach for Efficient and Effective Visual Token Compression [45.37530855889661]
高解像度画像は、多モード大言語モデルに入力される視覚トークンの数を2次的に増加させる。
現在の研究は、しばしば性能を犠牲にして、効率を改善するために視覚的トークン圧縮法を開発している。
情報密度の低い冗長領域を圧縮する視覚誘導型サンプルラと、ユーザ指示と強く相関する視覚トークンを選択するテキスト誘導型サンプルラとを用いて、粗大な視覚トークン圧縮法を構築する。
論文 参考訳(メタデータ) (2024-11-21T15:37:52Z) - Autogenic Language Embedding for Coherent Point Tracking [19.127052469203612]
我々は,言語埋め込みを利用した新しいアプローチを導入し,同一オブジェクトに関連するフレーム単位の視覚的特徴のコヒーレンスを高める。
既存の視覚言語スキームとは異なり、本手法は専用のマッピングネットワークを通じて視覚的特徴からテキスト埋め込みを学習する。
提案手法は,映像中の軌跡の追跡精度を著しく向上させる。
論文 参考訳(メタデータ) (2024-07-30T11:02:45Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up
Patch Summarization [89.52943129132217]
本稿では,BUS という名前のボトムアップ・パッチ・サマリゼーション手法を提案し,視覚的トークン列の簡潔な要約を効率的に学習する。
テキスト・セマンティックス・アウェア・パッチセレクタ(TSPS)をViTバックボーンに組み込んで粗い粒度のビジュアルトークン抽出を行う。
このボトムアップコラボレーションによって、BUSは高いトレーニング効率を得られると同時に、効率性を維持したり、改善したりすることができます。
論文 参考訳(メタデータ) (2023-07-17T14:08:17Z) - Fine-Grained Visual Prompting [35.032567257651515]
Fine-Grained Visual Prompting (FGVP) は参照表現のゼロショット理解において優れた性能を示す。
RefCOCO+ testAサブセットで最大12.5%改善され、平均マージンが3.0%から4.6%向上した。
論文 参考訳(メタデータ) (2023-06-07T11:39:56Z) - SmartTrim: Adaptive Tokens and Attention Pruning for Efficient
Vision-Language Models [35.5601603013045]
視覚言語モデル(VLM)のための適応加速度フレームワークであるSmartTrimを提案する。
軽量なモジュールを元のバックボーンに統合し、各レイヤ内で冗長なトークン表現とアテンションヘッドを特定し、実行します。
我々は,プレナードモデルの予測と完全容量との整合性を高めるための自己蒸留戦略を考案した。
論文 参考訳(メタデータ) (2023-05-24T11:18:00Z) - Effective End-to-End Vision Language Pretraining with Semantic Visual
Loss [58.642954383282216]
現在の視覚言語事前学習モデルは、物体検出器から抽出された領域視覚特徴を用いた手法によって支配されている。
3種類の視覚的損失を導入し、より高速な収束と微調整精度の向上を実現した。
リージョン機能モデルと比較して、私たちのエンドツーエンドモデルは、下流タスクで同様のあるいはより良いパフォーマンスを実現し、推論中に10倍以上高速に動作します。
論文 参考訳(メタデータ) (2023-01-18T00:22:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。