論文の概要: Extreme Compression for Pre-trained Transformers Made Simple and
Efficient
- arxiv url: http://arxiv.org/abs/2206.01859v1
- Date: Sat, 4 Jun 2022 00:19:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 14:03:35.182205
- Title: Extreme Compression for Pre-trained Transformers Made Simple and
Efficient
- Title(参考訳): 簡易かつ効率的なプレトレーニング変圧器の極端圧縮
- Authors: Xiaoxia Wu, Zhewei Yao, Minjia Zhang, Conglong Li, Yuxiong He
- Abstract要約: 極端圧縮、特に超低ビット精度(バイナリ/3次量子化)は、リソース制約デバイスに大規模なNLPモデルを適用するために提案されている。
我々は,超高速圧縮のための単純かつ効果的な圧縮パイプライン XTC を提案する。
- 参考スコア(独自算出の注目度): 31.719905773863566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extreme compression, particularly ultra-low bit precision (binary/ternary)
quantization, has been proposed to fit large NLP models on resource-constraint
devices. However, to preserve the accuracy for such aggressive compression
schemes, cutting-edge methods usually introduce complicated compression
pipelines, e.g., multi-stage expensive knowledge distillation with extensive
hyperparameter tuning. Also, they oftentimes focus less on smaller transformer
models that have already been heavily compressed via knowledge distillation and
lack a systematic study to show the effectiveness of their methods. In this
paper, we perform a very comprehensive systematic study to measure the impact
of many key hyperparameters and training strategies from previous works. As a
result, we find out that previous baselines for ultra-low bit precision
quantization are significantly under-trained. Based on our study, we propose a
simple yet effective compression pipeline for extreme compression, named XTC.
XTC demonstrates that (1) we can skip the pre-training knowledge distillation
to obtain a 5-layer BERT while achieving better performance than previous
state-of-the-art methods, e.g., the 6-layer TinyBERT; (2) extreme quantization
plus layer reduction is able to reduce the model size by 50x, resulting in new
state-of-the-art results on GLUE tasks.
- Abstract(参考訳): 極端圧縮、特に超低ビット精度(二元/三元)量子化は、大規模nlpモデルを資源制約デバイスに適合させるために提案されている。
しかし、このような攻撃的な圧縮スキームの精度を維持するために、最先端の手法は通常、複雑な圧縮パイプラインを導入している。
また、しばしば、知識蒸留によって既に強く圧縮された小さなトランスフォーマーモデルに焦点が当てられず、それらの方法の有効性を示す体系的な研究が欠如している。
本稿では,従来の研究から多くの重要なハイパーパラメータとトレーニング戦略の影響を計測する,非常に包括的な体系的研究を行う。
その結果、超低ビット精度量子化の以前のベースラインは、かなり訓練不足であることが判明した。
本研究は, 極端圧縮のための単純かつ効果的な圧縮パイプライン XTC を提案する。
XTCは、(1)先行学習した知識蒸留をスキップして、5層BERTを得ることができ、例えば6層TinyBERTのような従来の最先端手法よりも優れた性能が得られることを実証している。
関連論文リスト
- CompactifAI: Extreme Compression of Large Language Models using
Quantum-Inspired Tensor Networks [1.60270914221478]
ChatGPTやLlaMAのような大規模言語モデル(LLM)は、生成人工知能(AI)において急速に進歩している。
その巨大なサイズは、巨大なトレーニングと推論コスト、相当なエネルギー需要、オンサイト展開の制限など、大きな課題を生んでいる。
プルーニング、蒸留、低ランク近似といった従来の圧縮手法は、ネットワーク内のニューロンの有効数を減らし、量子化は個々の重みの数値的精度を減らし、ニューロンの固定数を抑えながらモデルサイズを減らすことに重点を置いている。
本稿では、量子インスパイアされたネットワークを用いた革新的な圧縮手法であるCompactifAIを紹介する。
論文 参考訳(メタデータ) (2024-01-25T11:45:21Z) - DSFormer: Effective Compression of Text-Transformers by Dense-Sparse
Weight Factorization [12.277820111814691]
DSFormerは、ターゲットの重み行列を小さな密度と半構造化されたスパース行列の積として表現する単純な代替因数分解スキームである。
我々のアプローチは、主流圧縮機にも当てはまり、一般的な蒸留、層共有および量子化変換器に追加される場合、最大50%の圧縮を提供する。
論文 参考訳(メタデータ) (2023-12-20T17:27:25Z) - Combining Compressions for Multiplicative Size Scaling on Natural
Language Tasks [7.813460653362095]
量子化、知識蒸留、マグニチュードプルーニングは、NLPにおけるニューラルネットワーク圧縮の最も一般的な方法の一つである。
6つのBERTアーキテクチャサイズと8つのGLUEタスクで、精度とモデルサイズとのトレードオフを比較します。
定量化と蒸留は、プルーニングよりも常に大きな利益をもたらすことがわかった。
論文 参考訳(メタデータ) (2022-08-20T14:01:56Z) - DQ-BART: Efficient Sequence-to-Sequence Model via Joint Distillation and
Quantization [75.72231742114951]
BARTやT5のような大規模事前学習シーケンス・ツー・シーケンスモデルは、多くの生成NLPタスクで最先端のパフォーマンスを達成する。
これらのモデルは、大きなメモリ要件と高いレイテンシのため、リソース制約のあるシナリオにおいて大きな課題となる。
そこで,本論文では,教師モデルから学生モデルへの知識の伝達と,学生モデルの定量化と定量化について提案する。
論文 参考訳(メタデータ) (2022-03-21T18:04:25Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - The Optimal BERT Surgeon: Scalable and Accurate Second-Order Pruning for
Large Language Models [23.12519490211362]
本稿では,BERTモデルの文脈における非構造重み打ちの精度圧縮トレードオフについて検討する。
近似2次情報に基づく効率的かつ正確な重量刈り法であるO-BERT-S(Optimal BERT Surgeon)を提案する。
本研究では,トランスフォーマーモデルに対する圧縮手法の複合化において,このプルーニング法が与える影響について検討する。
論文 参考訳(メタデータ) (2022-03-14T16:40:31Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - ScaleCom: Scalable Sparsified Gradient Compression for
Communication-Efficient Distributed Training [74.43625662170284]
最先端プラットフォーム上でのDeep Neural Networks(DNN)の大規模分散トレーニングは,通信の厳しい制約が期待できる。
本稿では,学習者間の勾配分布の類似性を活用した新しい圧縮手法を提案する。
実験により,scalecomのオーバーヘッドは小さく,勾配トラフィックを直接低減し,高い圧縮率(65~400倍)と優れたスケーラビリティ(64名までの学習者,8~12倍のバッチサイズ)を提供する。
論文 参考訳(メタデータ) (2021-04-21T02:22:10Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。