論文の概要: Zero-TPrune: Zero-Shot Token Pruning through Leveraging of the Attention
Graph in Pre-Trained Transformers
- arxiv url: http://arxiv.org/abs/2305.17328v1
- Date: Sat, 27 May 2023 02:08:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 20:24:33.960884
- Title: Zero-TPrune: Zero-Shot Token Pruning through Leveraging of the Attention
Graph in Pre-Trained Transformers
- Title(参考訳): Zero-TPrune: 事前学習トランスにおけるアテンショングラフの活用によるゼロショットトケンプルーニング
- Authors: Hongjie Wang, Bhishma Dedhia, Niraj K. Jha
- Abstract要約: Token pruningは、Transformerモデルをエッジにデプロイする、新たなソリューションである。
ほとんどのトークンプルーニング法は、プルーニングの前後で計算的に拡張可能な微調整プロセスを必要とする。
トークンプルーニングにおけるトークンの重要性と類似性を両立する最初のゼロショット手法であるZero-TPruneを提案する。
- 参考スコア(独自算出の注目度): 7.153464785784947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deployment of Transformer models on the edge is increasingly challenging due
to the exponentially growing model size and inference cost that scales
quadratically with the number of tokens in the input sequence. Token pruning is
an emerging solution to address this challenge due to its ease of deployment on
various Transformer backbones. However, most token pruning methods require a
computationally-expensive fine-tuning process after or during pruning, which is
not desirable in many cases. Some recent works explore pruning of off-the-shelf
pre-trained Transformers without fine-tuning. However, they only take the
importance of tokens into consideration. In this work, we propose Zero-TPrune,
the first zero-shot method that considers both the importance and similarity of
tokens in performing token pruning. Zero-TPrune leverages the attention graph
of pre-trained Transformer models to produce an importance rank for tokens and
removes the less informative tokens. The attention matrix can be thought of as
an adjacency matrix of a directed graph, to which a graph shift operator can be
applied iteratively to obtain the importance score distribution. This
distribution guides the partition of tokens into two groups and measures
similarity between them. Due to the elimination of the fine-tuning overhead,
Zero-TPrune can easily prune large models and perform hyperparameter tuning
efficiently. We evaluate the performance of Zero-TPrune on vision tasks by
applying it to various vision Transformer backbones. Compared with
state-of-the-art pruning methods that require fine-tuning, Zero-TPrune not only
eliminates the need for fine-tuning after pruning, but does so with only around
0.3% accuracy loss. Compared with state-of-the-art fine-tuning-free pruning
methods, Zero-TPrune reduces accuracy loss by up to 45% on medium-sized models.
- Abstract(参考訳): 入力シーケンスのトークン数と2倍スケールのモデルサイズと推論コストが指数関数的に増加するため、エッジへのトランスフォーマーモデルのデプロイはますます難しくなっている。
Token pruningは、様々なTransformerバックボーンへのデプロイが容易であるため、この問題に対処する新たなソリューションである。
しかし、ほとんどのトークンプルーニング法は、プルーニングの後に、あるいはプルーニング中の微調整プロセスを必要とする。
近年の研究では、微調整なしで既修のトランスフォーマーを刈り取る方法が研究されている。
しかし、それらはトークンの重要性だけを考慮に入れる。
本研究では,トークンプルーニングにおけるトークンの重要性と類似性を両立する最初のゼロショット手法であるZero-TPruneを提案する。
Zero-TPruneは、事前訓練されたTransformerモデルのアテンショングラフを活用して、トークンの重要ランクを生成し、情報の少ないトークンを削除する。
注目行列は、グラフシフト演算子を反復的に適用して重要スコア分布を得ることができる有向グラフの隣接行列と考えることができる。
この分布はトークンを2つのグループに分割し、それらの類似性を測定する。
微調整オーバヘッドの除去により、ゼロツルーンは容易に大きな模型を刈り込み、ハイパーパラメータチューニングを効率的に行うことができる。
様々な視覚トランスフォーマーバックボーンに適用することにより,視覚タスクにおけるゼロツルーンの性能を評価する。
ファインチューニングを必要とする最先端のプルーニング法と比較すると、Zero-TPruneはプルーニング後の微調整の必要性をなくすだけでなく、約0.3%の精度の損失しか与えない。
最先端の微調整不要プルーニング法と比較して、Zero-TPruneは中型モデルの精度損失を最大45%削減する。
関連論文リスト
- Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - No Token Left Behind: Efficient Vision Transformer via Dynamic Token
Idling [55.203866875294516]
視覚変換器(ViT)はコンピュータビジョンタスクにおいて優れた性能を示した。
ViTの計算負担を軽減するために,様々なトークンプルーニング技術が導入されている。
性能と効率の優れたトレードオフを実現するための動的トークンアイドルベースのIdleViTを提案する。
論文 参考訳(メタデータ) (2023-10-09T12:10:41Z) - PPT: Token Pruning and Pooling for Efficient Vision Transformers [7.792045532428676]
我々は新しいアクセラレーションフレームワーク、すなわちトークン・プルーニング・アンド・プール変換器(PPT)を提案する。
PPTは、トレーニング可能なパラメータを追加せずに、トークンプーリングとトークンプーリングの両方をViTsに統合する。
37%以上のFLOPを削減し、ImageNetデータセットの精度低下なしに、DeiT-Sのスループットを45%以上改善する。
論文 参考訳(メタデータ) (2023-10-03T05:55:11Z) - Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。
局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。
特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - Joint Token Pruning and Squeezing Towards More Aggressive Compression of
Vision Transformers [2.0442992958844517]
視覚変換器を高効率で圧縮するための新しいTPS(Token Pruning & Squeezing Module)を提案する。
TPSは、プルーニングされたトークンの情報を、一方向近傍のマッチングと類似性に基づく融合ステップを介して、部分的な予約トークンに絞り込む。
提案手法は,DeiT-tinyを超えるスループットを向上し,精度はDeiT-tinyより4.78%向上する。
論文 参考訳(メタデータ) (2023-04-21T02:59:30Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z) - Learned Token Pruning for Transformers [39.181816379061374]
Learned Token Pruning ()メソッドは、データがトランスフォーマーの異なるレイヤを通過すると、冗長なトークンを減らす。
複数のGLUEタスクに対して,提案手法の性能を広範囲に検証する。
予備的な結果はTesla T4とIntel Haswellの1.4倍と1.9倍のスループット向上を示す。
論文 参考訳(メタデータ) (2021-07-02T09:00:13Z) - On the Distribution, Sparsity, and Inference-time Quantization of
Attention Values in Transformers [13.401707395755746]
NLPタスクに必要な典型的な注意値の全範囲について検討する。
注意値の80%近くは、最小限(1.0%$)の精度でゼロにプルーニングできる。
我々は,このプルーニング手法と組み合わせて,注意値を3ビット形式に定量化することで,微調整されたRoBERTaによる質問応答の精度を0.8%低下させることができた。
論文 参考訳(メタデータ) (2021-06-02T17:45:47Z) - BWCP: Probabilistic Learning-to-Prune Channels for ConvNets via Batch
Whitening [63.081808698068365]
本稿では,畳み込みニューラルネットワーク(cnns)を高速化する確率的チャネルプルーニング手法を提案する。
以前は、訓練中の重要でないチャンネルを決定論的な方法でゼロにすることが多く、CNNの学習能力が低下し、最適なパフォーマンスが得られます。
本研究では, バッチホワイトニングチャネルプルーニング (BWCP) と呼ばれる確率ベースのプルーニングアルゴリズムを開発し, チャネルの活性化の確率をモデル化することにより, 重要でないチャネルを自動破棄する。
論文 参考訳(メタデータ) (2021-05-13T17:00:05Z) - Hessian-Aware Pruning and Optimal Neural Implant [74.3282611517773]
プルーニングは、ニューラルネットワークモデルに関連するメモリフットプリントとフラップを減らす効果的な方法である。
構造的プルーニングの指標として2次感度を用いたニューラルインプラントアプローチと組み合わされた新しいヘッセン認識プルーニング法を提案する。
論文 参考訳(メタデータ) (2021-01-22T04:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。