論文の概要: Layer-wise Pruning of Transformer Attention Heads for Efficient Language
Modeling
- arxiv url: http://arxiv.org/abs/2110.03252v1
- Date: Thu, 7 Oct 2021 08:19:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-09 03:49:32.589026
- Title: Layer-wise Pruning of Transformer Attention Heads for Efficient Language
Modeling
- Title(参考訳): 効率的な言語モデリングのためのトランスフォーマーアテンションヘッドの層ワイズプルーニング
- Authors: Kyuhong Shim, Iksoo Choi, Wonyong Sung, Jungwook Choi
- Abstract要約: アテンションヘッドプルーニングはこの問題を解決するための有望な手法である。
本稿では,性能劣化を最小限に抑えるための3つのトレーニング手法を提案する。
我々のプルーンドモデルは、WikiText-103言語モデリングベンチマークのTransformer-XLよりも、同等のパラメータサイズでのパープレキシティが一貫して低いことを示す。
- 参考スコア(独自算出の注目度): 22.278610066038954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Transformer-based models have shown impressive language modeling
performance, the large computation cost is often prohibitive for practical use.
Attention head pruning, which removes unnecessary attention heads in the
multihead attention, is a promising technique to solve this problem. However,
it does not evenly reduce the overall load because the heavy feedforward module
is not affected by head pruning. In this paper, we apply layer-wise attention
head pruning on All-attention Transformer so that the entire computation and
the number of parameters can be reduced proportionally to the number of pruned
heads. While the architecture has the potential to fully utilize head pruning,
we propose three training methods that are especially helpful to minimize
performance degradation and stabilize the pruning process. Our pruned model
shows consistently lower perplexity within a comparable parameter size than
Transformer-XL on WikiText-103 language modeling benchmark.
- Abstract(参考訳): トランスフォーマーベースのモデルは印象的な言語モデリング性能を示しているが、大きな計算コストは実用上、しばしば禁止されている。
マルチヘッドアテンションにおける不要なアテンションヘッドを除去するアテンションヘッドプルーニングは,この問題を解決する上で有望な手法である。
しかし、重いフィードフォワードモジュールがヘッドプルーニングに影響されないため、全体的な負荷を均等に減らさない。
本稿では,全アテンション変換器に階層的アテンションヘッドプルーニングを適用し,全計算量とパラメータ数を,プルーニングヘッド数に比例して減少させることができる。
ヘッドプルーニングを十分に活用する可能性があるが,性能劣化を最小限に抑え,プルーニングプロセスの安定化に有効な3つのトレーニング手法を提案する。
我々のprunedモデルはwikitext-103言語モデリングベンチマークにおいてtransformer-xlと同等のパラメータサイズで一貫してパープレキシティが低いことを示している。
関連論文リスト
- Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - Differentiable Subset Pruning of Transformer Heads [71.7904179689271]
差別化可能なサブセットプルーニングと呼ぶ新しいヘッドプルーニング手法を導入する。
分割可能なサブセットプルーニングは,スパーシリティレベルを正確に制御しながら,従来の作業と同等あるいは良好に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-08-10T13:08:34Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z) - Know What You Don't Need: Single-Shot Meta-Pruning for Attention Heads [114.77890059625162]
微調整前に深部学習前変換器を圧縮する単一ショットメタプランニング法を提案する。
下流の様々なタスクに適応的に不必要な注意を向けることに注力する。
事前学習したモデルに対する既存の圧縮手法と比較して、微調整と推論の両方のオーバーヘッドを低減することができる。
論文 参考訳(メタデータ) (2020-11-07T12:58:37Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z) - Low-Rank Bottleneck in Multi-head Attention Models [74.83235382203604]
現在のアーキテクチャにおけるヘッド数とヘッドサイズの間のスケーリングは、注目ヘッドの低ランクボトルネックを引き起こします。
本稿では,アテンションユニットの頭部サイズを入力シーケンス長に設定し,ヘッド数に依存しないようにすることを提案する。
論文 参考訳(メタデータ) (2020-02-17T16:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。