論文の概要: Empirical Evaluation of Post-Training Quantization Methods for Language
Tasks
- arxiv url: http://arxiv.org/abs/2210.16621v1
- Date: Sat, 29 Oct 2022 14:51:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 17:00:29.210371
- Title: Empirical Evaluation of Post-Training Quantization Methods for Language
Tasks
- Title(参考訳): 言語課題に対する学習後量子化法の実証評価
- Authors: Ting Hu, Christoph Meinel, Haojin Yang
- Abstract要約: ポストトレーニング量子化(PTQ)は、余分なトレーニングなしで低ビットの計算を可能にする。
OCS は BERT-Base と BERT-Large を 3 ビットに量子化し,GLUE ベンチマークの結果の 98% と 96% を保持できることを示した。
- 参考スコア(独自算出の注目度): 15.237410516605344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based architectures like BERT have achieved great success in a
wide range of Natural Language tasks. Despite their decent performance, the
models still have numerous parameters and high computational complexity,
impeding their deployment in resource-constrained environments. Post-Training
Quantization (PTQ), which enables low-bit computations without extra training,
could be a promising tool. In this work, we conduct an empirical evaluation of
three PTQ methods on BERT-Base and BERT-Large: Linear Quantization (LQ),
Analytical Clipping for Integer Quantization (ACIQ), and Outlier Channel
Splitting (OCS). OCS theoretically surpasses the others in minimizing the Mean
Square quantization Error and avoiding distorting the weights' outliers. That
is consistent with the evaluation results of most language tasks of GLUE
benchmark and a reading comprehension task, SQuAD. Moreover, low-bit quantized
BERT models could outperform the corresponding 32-bit baselines on several
small language tasks, which we attribute to the alleviation of
over-parameterization. We further explore the limit of quantization bit and
show that OCS could quantize BERT-Base and BERT-Large to 3-bits and retain 98%
and 96% of the performance on the GLUE benchmark accordingly. Moreover, we
conduct quantization on the whole BERT family, i.e., BERT models in different
configurations, and comprehensively evaluate their performance on the GLUE
benchmark and SQuAD, hoping to provide valuable guidelines for their deployment
in various computation environments.
- Abstract(参考訳): BERTのようなトランスフォーマーベースのアーキテクチャは、幅広い自然言語タスクで大きな成功を収めています。
優れたパフォーマンスにもかかわらず、モデルには多くのパラメータと高い計算複雑性があり、リソース制約のある環境への展開を妨げる。
余分なトレーニングなしで低ビット計算を可能にするptq(post-training quantization)は有望なツールである。
本研究では, BERT-BaseとBERT-Largeの3つのPTQ手法について, 線形量子化(LQ), 整数量子化のための解析クリッピング(ACIQ), 外乱チャネル分割(OCS)を実験的に評価する。
OCSは理論上、平均正方形量子化誤差を最小化し、重みの外れ率を歪ませることを避けている。
これは、GLUEベンチマークのほとんどの言語タスクと読み取り理解タスクであるSQuADの評価結果と一致している。
さらに、低ビット量子化BERTモデルは、いくつかの小言語タスクにおいて対応する32ビットベースラインよりも優れる可能性がある。
さらに、量子化ビットの限界について検討し、OCSがBERT-BaseとBERT-Largeを3ビットに量子化し、GLUEベンチマークの98%と96%の性能を維持できることを示す。
さらに、bertファミリー全体、すなわち異なる構成のbertモデル上で量子化を行い、様々な計算環境におけるデプロイに有用なガイドラインを提供することを目標として、glueベンチマークとsquadでパフォーマンスを包括的に評価する。
関連論文リスト
- Self-Distilled Quantization: Achieving High Compression Rates in
Transformer-Based Language Models [6.936564049727831]
本稿では,蓄積量子化誤差を最小化し,ベースラインを上回り,自己蒸留量子化法(SDQ)を提案する。
SDQを多言語モデル XLM-R-Base とInfoXLM-Base に適用し、両モデルが32ビット浮動小数点重みから8ビット整数重みに還元可能であることを示す。
論文 参考訳(メタデータ) (2023-07-12T07:38:24Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - BiBERT: Accurate Fully Binarized BERT [69.35727280997617]
BiBERTは、パフォーマンスボトルネックを取り除くために、正確に2項化されたBERTである。
提案手法は,FLOPとモデルサイズで56.3回,31.2回節約できる。
論文 参考訳(メタデータ) (2022-03-12T09:46:13Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - KDLSQ-BERT: A Quantized Bert Combining Knowledge Distillation with
Learned Step Size Quantization [1.9786767260073905]
BERTのようなトランスフォーマーベースの言語モデルでは、さまざまな自然言語処理タスクのパフォーマンスが大幅に向上している。
言語モデル量子化のための知識蒸留(KD)と学習ステップサイズ量子化(LSQ)を組み合わせた新しい量子化手法KDLSQ-BERTを提案する。
論文 参考訳(メタデータ) (2021-01-15T02:21:28Z) - An Investigation on Different Underlying Quantization Schemes for
Pre-trained Language Models [33.49417100179159]
我々はk平均量子化を実装し、BERTの固定精度量子化と線形量子化の性能を比較する。
また、ALBERTモデル上の2つの量子化スキームを比較し、異なる事前学習モデル間のロバスト性差を探索する。
論文 参考訳(メタデータ) (2020-10-14T14:05:06Z) - Incorporating BERT into Parallel Sequence Decoding with Adapters [82.65608966202396]
本稿では,2種類のBERTモデルをエンコーダとデコーダとして取り出し,シンプルで軽量なアダプタモジュールを導入し,それらを微調整する。
我々は、ソース側およびターゲット側BERTモデルに含まれる情報を協調的に活用できるフレキシブルで効率的なモデルを得る。
我々のフレームワークは、BERTの双方向および条件独立性を考慮した、Mask-Predictという並列シーケンス復号アルゴリズムに基づいている。
論文 参考訳(メタデータ) (2020-10-13T03:25:15Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。