論文の概要: PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models
- arxiv url: http://arxiv.org/abs/2306.00014v1
- Date: Tue, 30 May 2023 08:41:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 20:47:06.709233
- Title: PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models
- Title(参考訳): prequant:事前学習された言語モデルに対するタスク非依存量子化アプローチ
- Authors: Zhuocheng Gong, Jiahao Liu, Qifan Wang, Yang Yang, Jingang Wang, Wei
Wu, Yunsen Xian, Dongyan Zhao, Rui Yan
- Abstract要約: ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
- 参考スコア(独自算出の注目度): 52.09865918265002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While transformer-based pre-trained language models (PLMs) have dominated a
number of NLP applications, these models are heavy to deploy and expensive to
use. Therefore, effectively compressing large-scale PLMs becomes an
increasingly important problem. Quantization, which represents high-precision
tensors with low-bit fix-point format, is a viable solution. However, most
existing quantization methods are task-specific, requiring customized training
and quantization with a large number of trainable parameters on each individual
task. Inspired by the observation that the over-parameterization nature of PLMs
makes it possible to freeze most of the parameters during the fine-tuning
stage, in this work, we propose a novel ``quantize before fine-tuning''
framework, PreQuant, that differs from both quantization-aware training and
post-training quantization. PreQuant is compatible with various quantization
strategies, with outlier-aware parameter-efficient fine-tuning incorporated to
correct the induced quantization error. We demonstrate the effectiveness of
PreQuant on the GLUE benchmark using BERT, RoBERTa, and T5. We also provide an
empirical investigation into the workflow of PreQuant, which sheds light on its
efficacy.
- Abstract(参考訳): トランスフォーマーベースの事前学習言語モデル(PLM)は多くのNLPアプリケーションを支配しているが、これらのモデルはデプロイに重く、使用には高価である。
そのため、大規模plmの効果的圧縮はますます重要な問題となっている。
低ビットの固定点形式を持つ高精度テンソルを表す量子化は実現可能な解である。
しかし、既存の量子化手法のほとんどはタスク固有であり、個々のタスクに多くのトレーニング可能なパラメータを持つカスタマイズされたトレーニングと量子化を必要とする。
本研究は, PLMの過度パラメータ化特性により, 微調整段階におけるパラメータの大部分を凍結することができるという観察に着想を得て, 量子化学習と後学習量子化の両方とは異なる「微調整前の量子化」フレームワークPreQuantを提案する。
PreQuantは様々な量子化戦略と互換性があり、出力された量子化誤差を修正するために、パラメーター効率の高い微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
また,prequantのワークフローについて実証的な調査を行い,その効果を明らかにした。
関連論文リスト
- Channel-Wise Mixed-Precision Quantization for Large Language Models [47.00361921910259]
大規模言語モデル(LLM)は、幅広い言語タスクで顕著な成功を収めている。
重みのみの量子化は、LCMのメモリフットプリントを削減するための有望な解決策である。
本稿では,CMPQ(Channel-Wise Mixed-Precision Quantization)を提案する。
論文 参考訳(メタデータ) (2024-10-16T21:34:41Z) - PikeLPN: Mitigating Overlooked Inefficiencies of Low-Precision Neural Networks [4.827161693957252]
非量子化要素演算は、低精度モデルの推論コストを支配している。
PikeLPNモデルは、要素演算と乗算累積演算の両方に量子化を適用することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-03-29T18:23:34Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - RepQuant: Towards Accurate Post-Training Quantization of Large
Transformer Models via Scale Reparameterization [8.827794405944637]
ポストトレーニング量子化(PTQ)は、大きなトランスモデルを圧縮するための有望な解である。
既存のPTQメソッドは、通常、非自明な性能損失を示す。
本稿では、量子化推論デカップリングパラダイムを備えた新しいPTQフレームワークRepQuantを提案する。
論文 参考訳(メタデータ) (2024-02-08T12:35:41Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - Gradient-Based Post-Training Quantization: Challenging the Status Quo [23.1120983784623]
量子化は、ディープニューラルネットワークの効率的なデプロイのための重要なステップとなっている。
この研究で、このプロセスは、ある程度は、多くの変数に対して堅牢であることを示す。
我々は、より効率的でスケーラブルなGPTQメソッドを設計するための多くのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2023-08-15T09:25:11Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - An Investigation on Different Underlying Quantization Schemes for
Pre-trained Language Models [33.49417100179159]
我々はk平均量子化を実装し、BERTの固定精度量子化と線形量子化の性能を比較する。
また、ALBERTモデル上の2つの量子化スキームを比較し、異なる事前学習モデル間のロバスト性差を探索する。
論文 参考訳(メタデータ) (2020-10-14T14:05:06Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。