論文の概要: A Comprehensive Study on Post-Training Quantization for Large Language
Models
- arxiv url: http://arxiv.org/abs/2303.08302v1
- Date: Wed, 15 Mar 2023 01:27:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 15:04:24.284292
- Title: A Comprehensive Study on Post-Training Quantization for Large Language
Models
- Title(参考訳): 大規模言語モデルの学習後量子化に関する総合的研究
- Authors: Zhewei Yao, Cheng Li, Xiaoxia Wu, Stephen Youn, Yuxiong He
- Abstract要約: ポストトレーニング量子化(ptq)は、最近、大規模言語モデルのメモリ消費と/または計算コストを削減するための妥協手法として示されている。
数万のゼロショット実験に対して、これらの成分について広範な研究を行っている。
- 参考スコア(独自算出の注目度): 24.34969722921442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training quantization (\ptq) had been recently shown as a compromising
method to reduce the memory consumption and/or compute cost for large language
models. However, a comprehensive study about the effect of different
quantization schemes, different model families, different \ptq methods,
different quantization bit precision, etc, is still missing. In this work, we
provide an extensive study on those components over tens of thousands of
zero-shot experiments. Our results show that (1) Fine-grained quantization and
\ptq methods (instead of naive round-to-nearest quantization) are necessary to
achieve good accuracy and (2) Higher bits (e.g., 5 bits) with coarse-grained
quantization is more powerful than lower bits (e.g., 4 bits) with very
fine-grained quantization (whose effective bits is similar to 5-bits). We also
present recommendations about how to utilize quantization for \llms with
different sizes, and leave suggestions of future opportunities and system work
that are not resolved in this work.
- Abstract(参考訳): ポストトレーニング量子化(\ptq)は、最近、大規模言語モデルのメモリ消費と/または計算コストを削減するための妥協手法として示されている。
しかし、異なる量子化スキーム、異なるモデルファミリー、異なる \ptq 法、異なる量子化ビット精度などの影響に関する包括的な研究はいまだに欠落している。
本研究では,これらの部品について,何万ものゼロショット実験を行った。
その結果、(1)細粒度量子化と(naive round-to-nearest量子化ではなく) \ptq法が精度向上のために必要であり、(2)粗粒度量子化の上位ビット(例えば5ビット)は、非常に細粒度量子化(実効ビットは5ビットに近い)の下位ビット(例えば4ビット)よりも強力であることがわかった。
また,本研究で解決されていない将来的な機会とシステムワークの提案を残し,異なるサイズのllmに対して量子化をどのように活用するかを推奨する。
関連論文リスト
- Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Optimizing Large Language Models through Quantization: A Comparative Analysis of PTQ and QAT Techniques [0.0]
量子化はモデルサイズを最大68%削減できる。
Int8量子化は計算コストと消費電力を40%削減する。
Int4量子化はこれらの指標をさらに60%改善する。
論文 参考訳(メタデータ) (2024-11-09T06:30:13Z) - GWQ: Gradient-Aware Weight Quantization for Large Language Models [61.17678373122165]
勾配対応重み量子化(GWQ)は、勾配を利用して外れ値の局所化を行う、低ビット重み量子化のための最初の量子化手法である。
GWQはFP16精度で上位1%の外れ値に対応し、残りの非外れ値重みは低ビットフォーマットで格納される。
ゼロショットタスクでは、GWQ量子化モデルは他の量子化法よりも精度が高い。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - Effect of Weight Quantization on Learning Models by Typical Case
Analysis [6.9060054915724]
最近のデータ分析スケールの急増は、計算リソースの要求を大幅に増加させた。
量子化は、限られた計算資源を持つデバイスに大規模なモデルをデプロイするのに不可欠である。
論文 参考訳(メタデータ) (2024-01-30T18:58:46Z) - PB-LLM: Partially Binarized Large Language Models [14.244537605866864]
本稿では,Large Language Models (LLMs) 圧縮のために,モデル重みを1ビットに圧縮するネットワークバイナライゼーションについて検討する。
本稿では,LLMの言語的推論能力を維持しつつ,極端に低ビットの量子化を実現する手法として,PB-LLM(Partial-Binarized LLM)を提案する。
論文 参考訳(メタデータ) (2023-09-29T14:35:27Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - Analysis of Quantization on MLP-based Vision Models [36.510879540365636]
量子化は、ニューラルネットワークの浮動小数点重みとアクティベーションを低ビット整数に変換することによって効率的なモデルを得る。
本稿では,有界モデルに量子化を直接適用することで,精度が向上することを示す。
論文 参考訳(メタデータ) (2022-09-14T02:55:57Z) - Learnable Companding Quantization for Accurate Low-bit Neural Networks [3.655021726150368]
ディープニューラルネットワークの量子化は、メモリ消費の削減と推論速度の向上に有効な方法である。
非常に低ビットモデルがフル精度モデルに匹敵する精度を達成することは、まだ困難です。
2,3,4ビットモデルのための新しい非一様量子化手法として学習可能なコンパイル量子化(LCQ)を提案する。
論文 参考訳(メタデータ) (2021-03-12T09:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。