論文の概要: PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models
- arxiv url: http://arxiv.org/abs/2306.00014v1
- Date: Tue, 30 May 2023 08:41:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 20:47:06.709233
- Title: PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models
- Title(参考訳): prequant:事前学習された言語モデルに対するタスク非依存量子化アプローチ
- Authors: Zhuocheng Gong, Jiahao Liu, Qifan Wang, Yang Yang, Jingang Wang, Wei
Wu, Yunsen Xian, Dongyan Zhao, Rui Yan
- Abstract要約: ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
- 参考スコア(独自算出の注目度): 52.09865918265002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While transformer-based pre-trained language models (PLMs) have dominated a
number of NLP applications, these models are heavy to deploy and expensive to
use. Therefore, effectively compressing large-scale PLMs becomes an
increasingly important problem. Quantization, which represents high-precision
tensors with low-bit fix-point format, is a viable solution. However, most
existing quantization methods are task-specific, requiring customized training
and quantization with a large number of trainable parameters on each individual
task. Inspired by the observation that the over-parameterization nature of PLMs
makes it possible to freeze most of the parameters during the fine-tuning
stage, in this work, we propose a novel ``quantize before fine-tuning''
framework, PreQuant, that differs from both quantization-aware training and
post-training quantization. PreQuant is compatible with various quantization
strategies, with outlier-aware parameter-efficient fine-tuning incorporated to
correct the induced quantization error. We demonstrate the effectiveness of
PreQuant on the GLUE benchmark using BERT, RoBERTa, and T5. We also provide an
empirical investigation into the workflow of PreQuant, which sheds light on its
efficacy.
- Abstract(参考訳): トランスフォーマーベースの事前学習言語モデル(PLM)は多くのNLPアプリケーションを支配しているが、これらのモデルはデプロイに重く、使用には高価である。
そのため、大規模plmの効果的圧縮はますます重要な問題となっている。
低ビットの固定点形式を持つ高精度テンソルを表す量子化は実現可能な解である。
しかし、既存の量子化手法のほとんどはタスク固有であり、個々のタスクに多くのトレーニング可能なパラメータを持つカスタマイズされたトレーニングと量子化を必要とする。
本研究は, PLMの過度パラメータ化特性により, 微調整段階におけるパラメータの大部分を凍結することができるという観察に着想を得て, 量子化学習と後学習量子化の両方とは異なる「微調整前の量子化」フレームワークPreQuantを提案する。
PreQuantは様々な量子化戦略と互換性があり、出力された量子化誤差を修正するために、パラメーター効率の高い微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
また,prequantのワークフローについて実証的な調査を行い,その効果を明らかにした。
関連論文リスト
- RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [95.32315448601241]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Rethinking Post-Training Quantization: Introducing a Statistical Pre-Calibration Approach [22.25748046511075]
ポストトレーニング量子化(PTQ)技術は、精度を維持するためにキャリブレーションプロセスに依存する。
本稿では,キャリブレーションに基づくPTQ手法の先駆者と見なせる重み適応型PTQ法を提案する。
提案手法は,最も一般的なキャリブレーションに基づくPTQ法と同等に動作可能であることを示す。
論文 参考訳(メタデータ) (2025-01-15T19:44:15Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - RepQuant: Towards Accurate Post-Training Quantization of Large
Transformer Models via Scale Reparameterization [8.827794405944637]
ポストトレーニング量子化(PTQ)は、大きなトランスモデルを圧縮するための有望な解である。
既存のPTQメソッドは、通常、非自明な性能損失を示す。
本稿では、量子化推論デカップリングパラダイムを備えた新しいPTQフレームワークRepQuantを提案する。
論文 参考訳(メタデータ) (2024-02-08T12:35:41Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - An Investigation on Different Underlying Quantization Schemes for
Pre-trained Language Models [33.49417100179159]
我々はk平均量子化を実装し、BERTの固定精度量子化と線形量子化の性能を比較する。
また、ALBERTモデル上の2つの量子化スキームを比較し、異なる事前学習モデル間のロバスト性差を探索する。
論文 参考訳(メタデータ) (2020-10-14T14:05:06Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。