論文の概要: Continuous Approximations for Improving Quantization Aware Training of LLMs
- arxiv url: http://arxiv.org/abs/2410.10849v1
- Date: Sun, 06 Oct 2024 04:33:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-20 09:41:11.026187
- Title: Continuous Approximations for Improving Quantization Aware Training of LLMs
- Title(参考訳): LLMの量子化学習改善のための連続近似法
- Authors: He Li, Jianhang Hong, Yuanzhuo Wu, Snehal Adbol, Zonglin Li,
- Abstract要約: 実効的なモデル圧縮手法である量子化アウェアトレーニング(QAT)を提案し,量子化後の性能劣化を低減する。
本稿では, 伝統的にSTE (Straight-Through Estimator) とクランプ関数によって近似された, 丸み関数上のQAT過程に対する2つの連続近似を導入する。
両方の手法を適用することで、量子化モデルのWikiText-v2データセット上のパープレキシティ(PPL)は9.0815に達し、ベースラインで9.9621を上回った。
- 参考スコア(独自算出の注目度): 4.435218424434634
- License:
- Abstract: Model compression methods are used to reduce the computation and energy requirements for Large Language Models (LLMs). Quantization Aware Training (QAT), an effective model compression method, is proposed to reduce performance degradation after quantization. To further minimize this degradation, we introduce two continuous approximations to the QAT process on the rounding function, traditionally approximated by the Straight-Through Estimator (STE), and the clamping function. By applying both methods, the perplexity (PPL) on the WikiText-v2 dataset of the quantized model reaches 9.0815, outperforming 9.9621 by the baseline. Also, we achieve a 2.76% improvement on BoolQ, and a 5.47% improvement on MMLU, proving that the step sizes and weights can be learned more accurately with our approach. Our method achieves better performance with the same precision, model size, and training setup, contributing to the development of more energy-efficient LLMs technology that aligns with global sustainability goals.
- Abstract(参考訳): モデル圧縮法は、Large Language Models (LLM) の計算とエネルギー要求を減らすために用いられる。
効率的なモデル圧縮手法である量子化認識訓練(QAT)を提案し,量子化後の性能劣化を低減する。
さらに, この劣化を最小化するために, 伝統的にSTE (Straight-Through Estimator) とクランプ関数によって近似された円形関数上のQAT過程に2つの連続近似を導入する。
両方の手法を適用することで、量子化モデルのWikiText-v2データセット上のパープレキシティ(PPL)は9.0815に達し、ベースラインで9.9621を上回った。
また、BoolQの2.76%の改善とMMLUの5.47%の改善を実現し、ステップサイズと重みをより正確に学習できることを実証した。
提案手法は, 同一精度, モデルサイズ, トレーニング設定による性能向上を実現し, グローバルなサステナビリティ目標に沿った, エネルギー効率の高いLCM技術の開発に寄与する。
関連論文リスト
- SLiM: One-shot Quantized Sparse Plus Low-rank Approximation of LLMs [2.7624021966289605]
大規模言語モデル(LLM)は、自然言語の理解と生成タスクに革命をもたらした。
LLMは、大きなパラメータサイズのため、メモリ消費が高く、推論時間が遅い。
本稿では,1ショットの量子スパースプラス低ランク近似を用いたLEMの圧縮手法であるSLiMを紹介する。
論文 参考訳(メタデータ) (2024-10-12T18:36:07Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression [31.30170080420504]
最先端の量子化手法には、限られたキャリブレーションデータに対する圧縮パラメータの微調整(一部)が含まれる。
既存の微調整戦略を一般化し改善する表現に依存しないフレームワークであるPV-Tuningを提案する。
論文 参考訳(メタデータ) (2024-05-23T17:57:04Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - AdpQ: A Zero-shot Calibration Free Adaptive Post Training Quantization Method for LLMs [22.25748046511075]
AdpQは大規模言語モデル(LLM)のための新しいゼロショット適応型PTQ法である
キャリブレーションデータを必要としない低精度量子化における最先端の性能を実現する。
その結果,LLMベンチマークの既存手法と同様の精度が得られ,量子化時間は少なくとも10倍に短縮された。
論文 参考訳(メタデータ) (2024-05-22T05:32:11Z) - Oh! We Freeze: Improving Quantized Knowledge Distillation via Signal Propagation Analysis for Large Language Models [5.69541128149828]
大規模言語モデル(LLM)や拡散モデルといった大規模な生成モデルは、それぞれNLPとコンピュータビジョンの分野に革命をもたらした。
本研究では, 知識蒸留(KD-QAT)を用いた軽量量子化対応微調整技術を提案し, 4ビット量化LDMの性能向上を図る。
我々は, ovフリーズがほぼ浮動小数点精度, すなわちCommonsense Reasoningベンチマークにおいて0.7%未満の精度で精度を低下させることを示す。
論文 参考訳(メタデータ) (2024-03-26T23:51:44Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。