論文の概要: Automatic Mixed-Precision Quantization Search of BERT
- arxiv url: http://arxiv.org/abs/2112.14938v1
- Date: Thu, 30 Dec 2021 06:32:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 13:32:37.645308
- Title: Automatic Mixed-Precision Quantization Search of BERT
- Title(参考訳): BERTの自動混合精度量子化探索
- Authors: Changsheng Zhao and Ting Hua and Yilin Shen and Qian Lou and Hongxia
Jin
- Abstract要約: BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 62.65905462141319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models such as BERT have shown remarkable effectiveness
in various natural language processing tasks. However, these models usually
contain millions of parameters, which prevents them from practical deployment
on resource-constrained devices. Knowledge distillation, Weight pruning, and
Quantization are known to be the main directions in model compression. However,
compact models obtained through knowledge distillation may suffer from
significant accuracy drop even for a relatively small compression ratio. On the
other hand, there are only a few quantization attempts that are specifically
designed for natural language processing tasks. They suffer from a small
compression ratio or a large error rate since manual setting on
hyper-parameters is required and fine-grained subgroup-wise quantization is not
supported. In this paper, we proposed an automatic mixed-precision quantization
framework designed for BERT that can simultaneously conduct quantization and
pruning in a subgroup-wise level. Specifically, our proposed method leverages
Differentiable Neural Architecture Search to assign scale and precision for
parameters in each sub-group automatically, and at the same time pruning out
redundant groups of parameters. Extensive evaluations on BERT downstream tasks
reveal that our proposed method outperforms baselines by providing the same
performance with much smaller model size. We also show the feasibility of
obtaining the extremely light-weight model by combining our solution with
orthogonal methods such as DistilBERT.
- Abstract(参考訳): BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
しかしながら、これらのモデルは通常数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
知識蒸留、軽量刈り、量子化がモデル圧縮の主要な方向であることが知られている。
しかしながら、知識蒸留によって得られたコンパクトモデルは、比較的小さな圧縮比であってもかなりの精度低下を被る可能性がある。
一方、自然言語処理タスク用に特別に設計された量子化の試みはごくわずかである。
ハイパーパラメータのマニュアル設定が必要であり、細粒度のサブグループ量子化がサポートされないため、圧縮率や大きなエラー率に悩まされる。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用自動混合量子化フレームワークを提案する。
具体的には,各サブグループにおけるパラメータのスケールと精度を自動的に割り当てると同時に,冗長なパラメータ群を抽出する。
BERT下流タスクの広範囲な評価により,提案手法はモデルサイズをはるかに小さくすることで,ベースラインよりも優れることがわかった。
また,DistilBERTのような直交法と解法を組み合わせることで,超軽量モデルの実現可能性を示す。
関連論文リスト
- Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - The Cost of Compression: Investigating the Impact of Compression on
Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。
2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。
LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。
パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文 参考訳(メタデータ) (2023-12-01T22:27:12Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of
Large-Scale Pre-Trained Language Models [19.640997611256168]
我々は,事前学習された言語モデルの学習後の量子化と,対象タスクの量子化パラメータの一部のみを微調整するAlphaTuningを提案する。
具体的には、AlphaTuningはバイナリ符号化量子化を使用して、完全精度パラメータをバイナリパラメータとスケーリングファクタの別個のセットに分解する。
GPT-2 や OPT に適用されたAlphaTuning は,4ビット量子化条件下での圧縮率 >10x を実現し,トレーニング可能なパラメータ数 >1,000x の削減を図りながら,様々な下流タスクの完全な微調整と競合することを示した。
論文 参考訳(メタデータ) (2022-10-08T00:36:00Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - The Optimal BERT Surgeon: Scalable and Accurate Second-Order Pruning for
Large Language Models [23.12519490211362]
本稿では,BERTモデルの文脈における非構造重み打ちの精度圧縮トレードオフについて検討する。
近似2次情報に基づく効率的かつ正確な重量刈り法であるO-BERT-S(Optimal BERT Surgeon)を提案する。
本研究では,トランスフォーマーモデルに対する圧縮手法の複合化において,このプルーニング法が与える影響について検討する。
論文 参考訳(メタデータ) (2022-03-14T16:40:31Z) - BSQ: Exploring Bit-Level Sparsity for Mixed-Precision Neural Network
Quantization [32.770842274996774]
混合精度量子化は、ディープニューラルネットワークの性能と圧縮率の最適なトレードオフを実現できる可能性がある。
従来の方法は、小さな手作業で設計された検索空間のみを調べるか、面倒なニューラルネットワークアーキテクチャ検索を使用して広大な検索空間を探索する。
本研究では、ビットレベルスパーシティを誘導する新たな角度から、混合精度量子化に取り組むためのビットレベルスパーシティ量子化(BSQ)を提案する。
論文 参考訳(メタデータ) (2021-02-20T22:37:41Z) - Search What You Want: Barrier Panelty NAS for Mixed Precision
Quantization [51.26579110596767]
混合精度量子化のための新しいバリアペナルティベースNAS(BP-NAS)を提案する。
BP-NASは、分類(Cifar-10, ImageNet)と検出(COCO)の両方に基づいて芸術の新たな状態を設定する
論文 参考訳(メタデータ) (2020-07-20T12:00:48Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。