論文の概要: Efficient Token Compression for Vision Transformer with Spatial Information Preserved
- arxiv url: http://arxiv.org/abs/2503.23455v1
- Date: Sun, 30 Mar 2025 14:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.131011
- Title: Efficient Token Compression for Vision Transformer with Spatial Information Preserved
- Title(参考訳): 空間情報保存型視覚変換器の効率的なトーケン圧縮
- Authors: Junzhu Mao, Yang Shen, Jinyang Guo, Yazhou Yao, Xiansheng Hua,
- Abstract要約: トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
- 参考スコア(独自算出の注目度): 59.79302182800274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Token compression is essential for reducing the computational and memory requirements of transformer models, enabling their deployment in resource-constrained environments. In this work, we propose an efficient and hardware-compatible token compression method called Prune and Merge. Our approach integrates token pruning and merging operations within transformer models to achieve layer-wise token compression. By introducing trainable merge and reconstruct matrices and utilizing shortcut connections, we efficiently merge tokens while preserving important information and enabling the restoration of pruned tokens. Additionally, we introduce a novel gradient-weighted attention scoring mechanism that computes token importance scores during the training phase, eliminating the need for separate computations during inference and enhancing compression efficiency. We also leverage gradient information to capture the global impact of tokens and automatically identify optimal compression structures. Extensive experiments on the ImageNet-1k and ADE20K datasets validate the effectiveness of our approach, achieving significant speed-ups with minimal accuracy degradation compared to state-of-the-art methods. For instance, on DeiT-Small, we achieve a 1.64$\times$ speed-up with only a 0.2\% drop in accuracy on ImageNet-1k. Moreover, by compressing segmenter models and comparing with existing methods, we demonstrate the superior performance of our approach in terms of efficiency and effectiveness. Code and models have been made available at https://github.com/NUST-Machine-Intelligence-Laboratory/prune_and_merge.
- Abstract(参考訳): トーケン圧縮は、トランスモデルの計算およびメモリ要求を低減し、リソース制約のある環境への展開を可能にするために不可欠である。
本研究では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
本手法では, トランスモデル内でのトークンプルーニングとマージ操作を統合し, 層幅のトークン圧縮を実現する。
トレーニング可能なマージを導入し、行列を再構築し、ショートカット接続を活用することにより、重要な情報を保存しつつトークンを効率的にマージし、プルーニングトークンの復元を可能にする。
さらに、トレーニング期間中にトークンの重要度を計算し、推論中に別の計算を行う必要をなくし、圧縮効率を向上する、新しい勾配重み付けアテンションスコア機構を導入する。
また、勾配情報を利用してトークンのグローバルな影響を捉え、最適な圧縮構造を自動的に識別する。
ImageNet-1kとADE20Kデータセットの大規模な実験により、我々のアプローチの有効性が検証された。
例えば、DeiT-Smallでは、1.64$\times$のスピードアップを実現しています。
さらに,セグメンタモデルを圧縮し,既存手法と比較することにより,効率と有効性の観点から,提案手法の優れた性能を示す。
コードとモデルはhttps://github.com/NUST-Machine-Intelligence-Laboratory/prune_and_mergeで公開されている。
関連論文リスト
- TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models [8.636574530055817]
TokenCarveは、2段階のトークン圧縮フレームワークである。
ビジュアルトークンの数を22.2%に減らし、推論の1.23倍のスピードアップ、KVキャッシュストレージの64%の削減、精度の1.54%の低下を達成できる。
論文 参考訳(メタデータ) (2025-03-13T16:04:31Z) - Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers [55.87192133758051]
Diffusion Transformer (DiTs)は、最先端(SOTA)画像生成の品質を達成したが、レイテンシとメモリ非効率に悩まされている。
圧縮比の異なる動的DiT推論フレームワークであるDiffCRを提案する。
論文 参考訳(メタデータ) (2024-12-22T02:04:17Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - Focus on the Core: Efficient Attention via Pruned Token Compression for Document Classification [6.660834045805309]
BERTのような事前訓練されたトランスフォーマーは計算コストのかかる自己保持機構に悩まされる。
トークンプルーニングとトークンの組み合わせという2つの戦略を統合することを提案する。
さまざまなデータセットによる実験は、ベースラインモデルよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-06-03T12:51:52Z) - Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。