論文の概要: Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning
- arxiv url: http://arxiv.org/abs/2408.06798v1
- Date: Tue, 13 Aug 2024 10:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 17:46:22.005437
- Title: Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning
- Title(参考訳): Token Compensator:再調整なしでの視覚変換器の推論コストの調整
- Authors: Shibo Jie, Yehui Tang, Jianyuan Guo, Zhi-Hong Deng, Kai Han, Yunhe Wang,
- Abstract要約: 視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
- 参考スコア(独自算出の注目度): 63.43972993473501
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Token compression expedites the training and inference of Vision Transformers (ViTs) by reducing the number of the redundant tokens, e.g., pruning inattentive tokens or merging similar tokens. However, when applied to downstream tasks, these approaches suffer from significant performance drop when the compression degrees are mismatched between training and inference stages, which limits the application of token compression on off-the-shelf trained models. In this paper, we propose a model arithmetic framework to decouple the compression degrees between the two stages. In advance, we additionally perform a fast parameter-efficient self-distillation stage on the pre-trained models to obtain a small plugin, called Token Compensator (ToCom), which describes the gap between models across different compression degrees. During inference, ToCom can be directly inserted into any downstream off-the-shelf models with any mismatched training and inference compression degrees to acquire universal performance improvements without further training. Experiments on over 20 downstream tasks demonstrate the effectiveness of our framework. On CIFAR100, fine-grained visual classification, and VTAB-1k, ToCom can yield up to a maximum improvement of 2.3%, 1.5%, and 2.0% in the average performance of DeiT-B, respectively. Code: https://github.com/JieShibo/ToCom
- Abstract(参考訳): トークン圧縮は、冗長トークンの数を減らし、不注意なトークンをプルーニングしたり、類似のトークンをマージすることで、ビジョントランスフォーマー(ViT)のトレーニングと推論を高速化する。
しかし、下流タスクに適用した場合、これらの手法は、トレーニングと推論の段階で圧縮度が一致しない場合、大幅な性能低下に悩まされ、既成モデルのトークン圧縮の適用が制限される。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
予め訓練したモデルに高速なパラメータ効率の自己蒸留工程を施し, 圧縮度が異なるモデル間のギャップを記述したToken Compensator (ToCom) と呼ばれる小さなプラグインを得る。
推論中、ToComはミスマッチしたトレーニングや推論圧縮の度合いを伴って、下流のオフザシェルフモデルに直接挿入することで、さらなるトレーニングをすることなく、普遍的なパフォーマンス改善を得ることができる。
20以上の下流タスクの実験では、我々のフレームワークの有効性が示されています。
CIFAR100、細粒度視覚分類、VTAB-1kでは、ToComはDeiT-Bの平均性能を最大2.3%、1.5%、2.0%向上させることができる。
コード:https://github.com/JieShibo/ToCom
関連論文リスト
- LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Long Context Compression with Activation Beacon [22.054232261437186]
Activation Beaconは、トランスフォーマーベースのLLM用のプラグインモジュールである。
長いコンテキストの効率的な、効率的、柔軟な圧縮をターゲットとしている。
推論時間の2倍の高速化と、KVキャッシュのメモリコストの8倍の削減を実現している。
論文 参考訳(メタデータ) (2024-01-07T11:57:40Z) - DiffRate : Differentiable Compression Rate for Efficient Vision
Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。
DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文 参考訳(メタデータ) (2023-05-29T10:15:19Z) - On-demand compute reduction with stochastic wav2vec 2.0 [63.22845151306881]
本稿では、wav2vec 2.0(W2V2)モデルに対するオンデマンドの計算量削減のための圧縮を提案する。
960hのLibrispeechデータセットで事前学習し、10hの転写データに微調整を行った結果,同じモデルを用いて単語誤り率(WER)と推測時間とのスムーズなトレードオフが得られた。
論文 参考訳(メタデータ) (2022-04-25T19:25:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。