論文の概要: Learned Token Pruning for Transformers
- arxiv url: http://arxiv.org/abs/2107.00910v1
- Date: Fri, 2 Jul 2021 09:00:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-05 12:54:47.197604
- Title: Learned Token Pruning for Transformers
- Title(参考訳): 変圧器の学習トークンプルーニング
- Authors: Sehoon Kim, Sheng Shen, David Thorsley, Amir Gholami, Joseph Hassoun,
Kurt Keutzer
- Abstract要約: Learned Token Pruning ()メソッドは、データがトランスフォーマーの異なるレイヤを通過すると、冗長なトークンを減らす。
複数のGLUEタスクに対して,提案手法の性能を広範囲に検証する。
予備的な結果はTesla T4とIntel Haswellの1.4倍と1.9倍のスループット向上を示す。
- 参考スコア(独自算出の注目度): 39.181816379061374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major challenge in deploying transformer models is their prohibitive
inference cost, which quadratically scales with the input sequence length. This
makes it especially difficult to use transformers for processing long
sequences. To address this, we present a novel Learned Token Pruning (LTP)
method that reduces redundant tokens as the data passes through the different
layers of the transformer. In particular, LTP prunes tokens with an attention
score below a threshold value, which is learned during training. Importantly,
our threshold based method avoids algorithmically expensive operations such as
top-k token selection which are used in prior token pruning methods, and also
leads to structured pruning. We extensively test the performance of our
approach on multiple GLUE tasks and show that our learned threshold based
method consistently outperforms the prior state-of-the-art top-k token based
method by up to ~2% higher accuracy with the same amount of FLOPs. Furthermore,
our preliminary results show up to 1.4x and 1.9x throughput improvement on
Tesla T4 GPU and Intel Haswell CPU, respectively, with less than 1% of accuracy
drop (and up to 2.1x FLOPs reduction). Our code has been developed in PyTorch
and has been open-sourced.
- Abstract(参考訳): トランスフォーマーモデルのデプロイにおける大きな課題は、入力シーケンスの長さで2倍にスケールする禁止推論コストである。
これにより、長いシーケンスを処理するのにトランスフォーマーを使うのが特に困難になる。
そこで本研究では,データをトランスフォーマーの異なる層を通過する際に冗長なトークンを減少させる新しい学習トークンプルーニング(ltp)法を提案する。
特に、LTPは、トレーニング中に学習した閾値未満の注意スコアでトークンをプルーネする。
重要なことは、しきい値に基づく手法は、先行トークンプルーニング法で使用されるトップkトークン選択のようなアルゴリズム的に高価な操作を回避し、構造化プルーニングにつながることである。
我々は,複数のグルータスクに対する我々のアプローチの性能を広範囲にテストし,学習しきい値に基づく手法が,従来のtop-kトークンベース手法を,同等のフラップで最大2%高い精度で一貫して上回ることを示した。
さらに、我々の予備結果は、tesla t4 gpuとintel haswell cpuでそれぞれ1.4倍と1.9倍のスループット向上を示し、1%未満の精度低下(最大2.1倍のフロップス削減)でした。
私たちのコードはPyTorchで開発され、オープンソース化されました。
関連論文リスト
- Learned Thresholds Token Merging and Pruning for Vision Transformers [5.141687309207561]
本稿では,トークンマージとトークンプルーニングの両方の長所を活用する新しいアプローチであるLTMP(Learned Thresholds token Merging and Pruning)を紹介する。
我々は、ImageNet分類タスクにおいて、視覚変換器に関する広範な実験を行い、我々のアプローチを実証する。
論文 参考訳(メタデータ) (2023-07-20T11:30:12Z) - Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing
Important Tokens [65.4435926060951]
本稿では,超長周期の変換器の効率を,各層でより小さな表現に圧縮することで向上することを提案する。
我々のアルゴリズムは効率的であるだけでなく(4Kと16Kのベースラインに比べて3倍以上の効率向上を達成する)、多数のタスクで競合/ベターパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-05-07T10:32:18Z) - Joint Token Pruning and Squeezing Towards More Aggressive Compression of
Vision Transformers [2.0442992958844517]
視覚変換器を高効率で圧縮するための新しいTPS(Token Pruning & Squeezing Module)を提案する。
TPSは、プルーニングされたトークンの情報を、一方向近傍のマッチングと類似性に基づく融合ステップを介して、部分的な予約トークンに絞り込む。
提案手法は,DeiT-tinyを超えるスループットを向上し,精度はDeiT-tinyより4.78%向上する。
論文 参考訳(メタデータ) (2023-04-21T02:59:30Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z) - Transkimmer: Transformer Learns to Layer-wise Skim [17.188613474427054]
Transformerベースのモデルの主要な計算非効率の1つは、すべての層で同じ量の計算に費やしていることである。
本稿では,レイヤ毎に不要な隠れ状態トークンを識別するTranskimmerアーキテクチャを提案する。
スキミングされたトークンは直接最終出力に転送され、連続するレイヤの計算が削減される。
論文 参考訳(メタデータ) (2022-05-15T16:23:30Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - DoT: An efficient Double Transformer for NLP tasks with tables [3.0079490585515343]
DoTは、問題を2つのサブタスクに分解するダブルトランスフォーマーモデルである。
少ない精度でDoTはトレーニング時間と推論時間を少なくとも50%改善することを示した。
論文 参考訳(メタデータ) (2021-06-01T13:33:53Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。