論文の概要: MKQ-BERT: Quantized BERT with 4-bits Weights and Activations
- arxiv url: http://arxiv.org/abs/2203.13483v1
- Date: Fri, 25 Mar 2022 07:27:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 13:52:34.259019
- Title: MKQ-BERT: Quantized BERT with 4-bits Weights and Activations
- Title(参考訳): MKQ-BERT:4ビット重みと活性化を持つ量子化BERT
- Authors: Hanlin Tang, Xipeng Zhang, Kai Liu, Jianchen Zhu, Zhanhui Kang
- Abstract要約: 圧縮レベルをさらに改善し,量子化に4ビットを使用するMKQ-BERTを提案する。
4ビットBERTのデプロイに成功した最初の作業であり、推論のエンドツーエンドのスピードアップを実現しています。
- 参考スコア(独自算出の注目度): 13.687982804234293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, pre-trained Transformer based language models, such as BERT, have
shown great superiority over the traditional methods in many Natural Language
Processing (NLP) tasks. However, the computational cost for deploying these
models is prohibitive on resource-restricted devices. One method to alleviate
this computation overhead is to quantize the original model into fewer bits
representation, and previous work has proved that we can at most quantize both
weights and activations of BERT into 8-bits, without degrading its performance.
In this work, we propose MKQ-BERT, which further improves the compression level
and uses 4-bits for quantization. In MKQ-BERT, we propose a novel way for
computing the gradient of the quantization scale, combined with an advanced
distillation strategy. On the one hand, we prove that MKQ-BERT outperforms the
existing BERT quantization methods for achieving a higher accuracy under the
same compression level. On the other hand, we are the first work that
successfully deploys the 4-bits BERT and achieves an end-to-end speedup for
inference. Our results suggest that we could achieve 5.3x of bits reduction
without degrading the model accuracy, and the inference speed of one int4 layer
is 15x faster than a float32 layer in Transformer based model.
- Abstract(参考訳): 近年、BERTのような事前訓練されたトランスフォーマーベースの言語モデルは、多くの自然言語処理(NLP)タスクにおいて従来の手法よりも優れていることが示されている。
しかし、これらのモデルをデプロイするための計算コストは、リソース制限されたデバイスでは禁じられている。
この計算オーバーヘッドを軽減する方法の1つは、元のモデルをより少ないビットの表現に定量化することであり、以前の研究は、BERTの重みとアクティベーションを最大8ビットに定量化できることを示した。
本研究では、圧縮レベルをさらに改善し、量子化に4ビットを使用するMKQ-BERTを提案する。
mkq-bertでは, 高度蒸留戦略を組み合わせることで, 量子化スケールの勾配を計算する新しい方法を提案する。
一方、MKQ-BERTは既存のBERT量子化法より優れており、同じ圧縮レベルで高い精度を実現する。
一方、我々は4ビットBERTのデプロイに成功し、推論のエンドツーエンドのスピードアップを実現した最初の作品です。
その結果、モデル精度を低下させることなく5.3倍のビット削減が可能であり、トランスベースモデルでは1つのint4層の推論速度がfloat32層よりも15倍高速であることが示唆された。
関連論文リスト
- SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。
これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。
本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - HQ-DiT: Efficient Diffusion Transformer with FP4 Hybrid Quantization [10.307268005739202]
拡散変換器(DiT)は、最近、優れた視覚生成能力に対して大きな注目を集めている。
DiTは高いパラメータカウントと実装コストを持ち、携帯電話などのリソース制限されたデバイスでの使用を著しく制限している。
4ビット浮動小数点(FP)の精度をDiT推論の重みとアクティベーションの両面に利用した,効率的なポストトレーニング量子化法であるDiT(HQ-DiT)のハイブリッド浮動小点量子化を提案する。
論文 参考訳(メタデータ) (2024-05-30T06:56:11Z) - TEQ: Trainable Equivalent Transformation for Quantization of LLMs [1.0376648762140632]
TEQは、低精度量子化を生かしながら、モデル出力のFP32精度を保存する訓練可能な等価変換である。
トレーニングプロセスは軽量で、1Kステップしか必要とせず、オリジナルのモデルのトレーニング可能なパラメータの0.1%未満である。
論文 参考訳(メタデータ) (2023-10-17T02:42:34Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - Prune Once for All: Sparse Pre-Trained Language Models [0.6063525456640462]
そこで本研究では,ウェイトプルーニングとモデル蒸留を統合したスパース事前訓練型トランスフォーマー言語モデルの学習手法を提案する。
これらのスパース事前学習モデルは、疎度パターンを維持しながら、幅広いタスクの学習を伝達するために使用することができる。
圧縮されたスパース事前学習モデルが、その知識を、最小限の精度で5つの下流自然言語タスクに伝達する方法を示す。
論文 参考訳(メタデータ) (2021-11-10T15:52:40Z) - Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。
本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文 参考訳(メタデータ) (2021-04-20T14:14:03Z) - KDLSQ-BERT: A Quantized Bert Combining Knowledge Distillation with
Learned Step Size Quantization [1.9786767260073905]
BERTのようなトランスフォーマーベースの言語モデルでは、さまざまな自然言語処理タスクのパフォーマンスが大幅に向上している。
言語モデル量子化のための知識蒸留(KD)と学習ステップサイズ量子化(LSQ)を組み合わせた新しい量子化手法KDLSQ-BERTを提案する。
論文 参考訳(メタデータ) (2021-01-15T02:21:28Z) - I-BERT: Integer-only BERT Quantization [78.43819756382103]
トランスフォーマーモデルのための新しい量子化手法であるI-BERTを提案する。
I-BERTは浮動小数点演算なしでエンドツーエンドの整数のみのBERT推論を実行する。
いずれの場合も,I-BERTは全精度ベースラインと同等(かつ若干高い)精度が得られた。
論文 参考訳(メタデータ) (2021-01-05T02:42:58Z) - BinaryBERT: Pushing the Limit of BERT Quantization [74.65543496761553]
本稿では、BERT量子化を重み二項化の限界まで押し上げるBinaryBERTを提案する。
複雑で不規則な損失環境のため,バイナリBERTは3次学習よりも直接訓練が難しいことが判明した。
実験結果から、BinaryBERT は完全精度 BERT ベースと比較して無視できる性能低下を示した。
論文 参考訳(メタデータ) (2020-12-31T16:34:54Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。