論文の概要: KDLSQ-BERT: A Quantized Bert Combining Knowledge Distillation with
Learned Step Size Quantization
- arxiv url: http://arxiv.org/abs/2101.05938v1
- Date: Fri, 15 Jan 2021 02:21:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 11:29:06.496926
- Title: KDLSQ-BERT: A Quantized Bert Combining Knowledge Distillation with
Learned Step Size Quantization
- Title(参考訳): KDLSQ-BERT:知識蒸留と学習ステップサイズ量子化を組み合わせた量子ベルト
- Authors: Jing Jin, Cai Liang, Tiancheng Wu, Liqin Zou, Zhiliang Gan
- Abstract要約: BERTのようなトランスフォーマーベースの言語モデルでは、さまざまな自然言語処理タスクのパフォーマンスが大幅に向上している。
言語モデル量子化のための知識蒸留(KD)と学習ステップサイズ量子化(LSQ)を組み合わせた新しい量子化手法KDLSQ-BERTを提案する。
- 参考スコア(独自算出の注目度): 1.9786767260073905
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, transformer-based language models such as BERT have shown
tremendous performance improvement for a range of natural language processing
tasks. However, these language models usually are computation expensive and
memory intensive during inference. As a result, it is difficult to deploy them
on resource-restricted devices. To improve the inference performance, as well
as reduce the model size while maintaining the model accuracy, we propose a
novel quantization method named KDLSQ-BERT that combines knowledge distillation
(KD) with learned step size quantization (LSQ) for language model quantization.
The main idea of our method is that the KD technique is leveraged to transfer
the knowledge from a "teacher" model to a "student" model when exploiting LSQ
to quantize that "student" model during the quantization training process.
Extensive experiment results on GLUE benchmark and SQuAD demonstrate that our
proposed KDLSQ-BERT not only performs effectively when doing different bit
(e.g. 2-bit $\sim$ 8-bit) quantization, but also outperforms the existing BERT
quantization methods, and even achieves comparable performance as the
full-precision base-line model while obtaining 14.9x compression ratio. Our
code will be public available.
- Abstract(参考訳): 近年,BERTのようなトランスフォーマーベースの言語モデルでは,自然言語処理タスクの処理性能が大幅に向上している。
しかし、これらの言語モデルは一般的に計算コストが高く、推論中にメモリが集中する。
その結果、リソース制限されたデバイスにデプロイすることは困難である。
モデル精度を維持しつつモデルサイズを小さくし、推論性能を向上させるため、言語モデル量子化のための知識蒸留(kd)と学習ステップサイズ量子化(lsq)を組み合わせたkdlsq-bertという新しい量子化法を提案する。
本手法の主な考え方は、量子化学習過程において、LSQを利用して「学習者」モデルから「学習者」モデルへ知識を伝達するために、KD手法を利用することである。
GLUEベンチマークとSQuADの大規模な実験結果から、提案したKDLSQ-BERTは、異なるビット(例えば、)を実行する場合にのみ有効であることを示す。
2-bit $\sim$ 8-bit) 量子化は既存のBERT量子化法よりも優れており、14.9倍の圧縮比を得ながら、完全精度のベースラインモデルと同等のパフォーマンスを達成している。
私たちのコードは公開されます。
関連論文リスト
- GWQ: Gradient-Aware Weight Quantization for Large Language Models [61.17678373122165]
勾配対応重み量子化(GWQ)は、勾配を利用して外れ値の局所化を行う、低ビット重み量子化のための最初の量子化手法である。
GWQはFP16精度で上位1%の外れ値に対応し、残りの非外れ値重みは低ビットフォーマットで格納される。
ゼロショットタスクでは、GWQ量子化モデルは他の量子化法よりも精度が高い。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - Self-Distilled Quantization: Achieving High Compression Rates in
Transformer-Based Language Models [6.936564049727831]
本稿では,蓄積量子化誤差を最小化し,ベースラインを上回り,自己蒸留量子化法(SDQ)を提案する。
SDQを多言語モデル XLM-R-Base とInfoXLM-Base に適用し、両モデルが32ビット浮動小数点重みから8ビット整数重みに還元可能であることを示す。
論文 参考訳(メタデータ) (2023-07-12T07:38:24Z) - LLM-QAT: Data-Free Quantization Aware Training for Large Language Models [38.76165207636793]
本研究では,事前学習モデルにより生成した世代を利用したデータフリー蒸留法を提案する。
重みとアクティベーションの定量化に加えて、スループット向上に重要なKVキャッシュの定量化も行います。
我々は7B,13B,30BのLLaMAモデルを4ビット以下の量子化レベルで実験した。
論文 参考訳(メタデータ) (2023-05-29T05:22:11Z) - RAND: Robustness Aware Norm Decay For Quantized Seq2seq Models [14.07649230604283]
モデル精度を向上させるために,量子化意識トレーニング(QAT)プロセスに対する低複雑性な変更を提案する。
精度が向上し、ノイズベースのQATの他の利点を活用できるようになる。
論文 参考訳(メタデータ) (2023-05-24T19:45:56Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - An Investigation on Different Underlying Quantization Schemes for
Pre-trained Language Models [33.49417100179159]
我々はk平均量子化を実装し、BERTの固定精度量子化と線形量子化の性能を比較する。
また、ALBERTモデル上の2つの量子化スキームを比較し、異なる事前学習モデル間のロバスト性差を探索する。
論文 参考訳(メタデータ) (2020-10-14T14:05:06Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。