論文の概要: Greedy Layer Pruning: Decreasing Inference Time of Transformer Models
- arxiv url: http://arxiv.org/abs/2105.14839v1
- Date: Mon, 31 May 2021 09:52:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 02:50:11.476754
- Title: Greedy Layer Pruning: Decreasing Inference Time of Transformer Models
- Title(参考訳): Greedy Layer Pruning: トランスモデルの推論時間を短縮する
- Authors: David Peer, Sebastian Stabinger, Stefan Engl, Antonio
Rodriguez-Sanchez
- Abstract要約: 教師なし事前学習後の微調整変圧器モデルは、多くの異なるNLPタスクにおいて非常に高い性能に達する。
1つの解決策は知識蒸留を使うことであり、これは大きな教師モデルからより小さな学生モデルに情報を転送することでこの問題を解決する。
もう1つの解決策は、トランスモデルの高い圧縮速度に達する層ワイドプルーニング法を使用することである。
本稿では, 層状プルーニングの最先端化のために, GLP (greedy layer pruning) を導入している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning transformer models after unsupervised pre-training reaches a very
high performance on many different NLP tasks. Unfortunately, transformers
suffer from long inference times which greatly increases costs in production
and is a limiting factor for the deployment into embedded devices. One possible
solution is to use knowledge distillation, which solves this problem by
transferring information from large teacher models to smaller student models,
but as it needs an additional expensive pre-training phase, this solution is
computationally expensive and can be financially prohibitive for smaller
academic research groups. Another solution is to use layer-wise pruning
methods, which reach high compression rates for transformer models and avoids
the computational load of the pre-training distillation stage. The price to pay
is that the performance of layer-wise pruning algorithms is not on par with
state-of-the-art knowledge distillation methods. In this paper, greedy layer
pruning (GLP) is introduced to (1) outperform current state-of-the-art for
layer-wise pruning (2) close the performance gap when compared to knowledge
distillation, while (3) using only a modest budget. More precisely, with the
methodology presented it is possible to prune and evaluate competitive models
on the whole GLUE benchmark with a budget of just $\$300$. Our source code is
available on https://github.com/deepopinion/greedy-layer-pruning.
- Abstract(参考訳): 教師なし事前学習後の微調整変圧器モデルは、多くの異なるNLPタスクにおいて非常に高い性能に達する。
残念ながら、トランスフォーマーは長い推論時間に悩まされ、生産コストを大幅に増加させ、組み込みデバイスへのデプロイの制限要因となっている。
一つの可能な解決策は知識蒸留であり、大きな教師モデルから小さな生徒モデルに情報を転送することでこの問題を解決するが、追加の高価な事前学習フェーズが必要であるため、このソリューションは計算コストが高く、小規模の学術研究グループでは経済的に禁止される。
もう1つの解決策は、トランスモデルの高い圧縮速度に達し、事前学習蒸留段階の計算負荷を回避する層ワイズプルーニング手法を使用することである。
料金は、層状プルーニングアルゴリズムの性能が最先端の知識蒸留法に匹敵するものではないためである。
本稿では,(1)知識蒸留に比べて性能ギャップを縮めること,(3)少額の予算で性能差を縮めること,(2)にグリーディ層刈り込み(glp)を導入する。
より正確には、提示された方法論により、わずか$300ドルの予算でGLUEベンチマーク全体の競争モデルを作成および評価することが可能である。
ソースコードはhttps://github.com/deepopinion/greedy-layer-pruningで閲覧できます。
関連論文リスト
- OATS: Outlier-Aware Pruning Through Sparse and Low Rank Decomposition [4.842973374883628]
入力埋め込みにおける第2モーメント情報を利用してモデル重みをスパース行列とローランク行列の和に分解する,OATSという大形変圧器の圧縮手法を提案する。
OATSは、Llama-3やPhi-3のような大型言語モデルやViTやDINOv2のようなビジョントランスフォーマーで最大60%の価格でモデルを圧縮する際に、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-20T17:02:00Z) - SLAB: Efficient Transformers with Simplified Linear Attention and Progressive Re-parameterized Batch Normalization [36.84275777364218]
本稿では,効率的な変圧器の計算ボトルネックモジュール,すなわち正規化層とアテンションモジュールについて検討する。
LayerNormはトランスフォーマーアーキテクチャで一般的に使用されるが、推論中の統計計算のために計算に適さない。
本稿では,LayerNorm を再パラメータ化した BatchNorm に段階的に置き換える PRepBN という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-19T15:22:25Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - Constraint-aware and Ranking-distilled Token Pruning for Efficient
Transformer Inference [18.308180927492643]
ToPは、未精製モデルの最終層から初期精製モデルまで有効なトークンランキングを蒸留する、希釈型トークン蒸留技術である。
ToPは、GLUE上での競合精度を達成しつつ、BERTの平均FLOPを8.1倍削減し、Intel CPU上では7.4倍の遅延速度を提供する。
論文 参考訳(メタデータ) (2023-06-26T03:06:57Z) - Gradient-based Intra-attention Pruning on Pre-trained Language Models [21.444503777215637]
本稿では,GRAIN (Gradient-based intra-attention pruning) を用いた構造化プルーニング手法を提案する。
GRAINは、アテンション内構造を検査し、プーンし、構造探索空間を大きく拡張し、より柔軟なモデルを可能にする。
GLUE、SQuAD、CoNLL 2003の実験では、GRAINは特に高頻度で他の手法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-15T06:52:31Z) - Exploring Extreme Parameter Compression for Pre-trained Language Models [45.80044281531393]
本研究は,事前学習言語モデル(PLM)の圧縮率の増大について検討する。
圧縮時の効率と効率を改善するために, 2つの分解・再構成プロトコルを提案する。
小さなバージョンではBERTベースが96.7%、エンコーダパラメータが1/48、推論が2.7倍高速になる。
論文 参考訳(メタデータ) (2022-05-20T09:16:55Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。