論文の概要: SmoothQuant+: Accurate and Efficient 4-bit Post-Training
WeightQuantization for LLM
- arxiv url: http://arxiv.org/abs/2312.03788v1
- Date: Wed, 6 Dec 2023 11:10:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 17:25:41.617290
- Title: SmoothQuant+: Accurate and Efficient 4-bit Post-Training
WeightQuantization for LLM
- Title(参考訳): SmoothQuant+:LSMのための4ビット後処理の精度と効率
- Authors: Jiayi Pan, Chengcan Wang, Kaifu Zheng, Yangguang Li, Zhenyu Wang, Bin
Feng
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示している。
現在、4ビット後の量子化(PTQ)はLLMである程度の成功を収めている。
SmoothQuant+は4ビットの重みのみのPTQである。
- 参考スコア(独自算出の注目度): 13.035063417593534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown remarkable capabilities in various
tasks. However their huge model size and the consequent demand for
computational and memory resources also pose challenges to model deployment.
Currently, 4-bit post-training quantization (PTQ) has achieved some success in
LLMs, reducing the memory footprint by approximately 75% compared to FP16
models, albeit with some accuracy loss. In this paper, we propose SmoothQuant+,
an accurate and efficient 4-bit weight-only PTQ that requires no additional
training, which enables lossless in accuracy for LLMs for the first time. Based
on the fact that the loss of weight quantization is amplified by the activation
outliers, SmoothQuant+ smoothes the activation outliers by channel before
quantization, while adjusting the corresponding weights for mathematical
equivalence, and then performs group-wise 4-bit weight quantization for linear
layers. We have integrated SmoothQuant+ into the vLLM framework, an advanced
high-throughput inference engine specially developed for LLMs, and equipped it
with an efficient W4A16 CUDA kernels, so that vLLM can seamlessly support
SmoothQuant+ 4-bit weight quantization. Our results show that, with
SmoothQuant+, the Code Llama-34B model can be quantized and deployed on a A100
40GB GPU, achieving lossless accuracy and a throughput increase of 1.9 to 4.0
times compared to the FP16 model deployed on two A100 40GB GPUs. Moreover, the
latency per token is only 68% of the FP16 model deployed on two A100 40GB GPUs.
This is the state-of-the-art 4-bit weight quantization for LLMs as we know.
- Abstract(参考訳): 大規模言語モデル(llm)は様々なタスクにおいて顕著な能力を示している。
しかし、その巨大なモデルサイズと計算リソースとメモリリソースに対する要求は、デプロイをモデル化する上でも課題となる。
4ビット後の量子化(PTQ)は、FP16モデルと比較してメモリフットプリントを約75%削減するが、精度は低下している。
本稿では,SmoothQuant+を提案する。SmoothQuant+は4ビットのウェイトオンリーのPTQで,追加のトレーニングを必要としない。
smoothquant+は、活性化異常値によって重量量子化の損失が増幅されるという事実に基づいて、量子化前のチャネルによる活性化異常値の平滑化を行い、対応する等価値の重みを調整しながら、線形層に対してグループワイズ4ビット重み量子化を行う。
SmoothQuant+をLLM用に特別に開発した高度な高スループット推論エンジンであるvLLMフレームワークに統合し、効率的なW4A16 CUDAカーネルを搭載し、vLLMがSmoothQuant+ 4ビット重み量子化をシームレスにサポートできるようにした。
SmoothQuant+では、Code Llama-34BモデルはA100 40GB GPU上で量子化およびデプロイが可能であり、2つのA100 40GB GPU上にデプロイされたFP16モデルと比較して、ロスレス精度とスループットの1.9から4.0倍のスループット向上を実現している。
さらに、トークン当たりのレイテンシは、2つのA100 40GB GPU上にデプロイされたFP16モデルの68%に過ぎない。
これは我々が知っているLSMの最先端の4ビット量量子化である。
関連論文リスト
- FlattenQuant: Breaking Through the Inference Compute-bound for Large
Language Models with Per-tensor Quantization [6.931020818874328]
テンソル内の大きなチャネルを平らにすることでテンソルの最大値を大幅に低減し、最小の精度でテンソル当たりの量子化を実現するFlattenQuantという手法を提案する。
我々の研究は2$times$ speedupと2.3$times$ memory reduction for LLMs with negligible loss in accuracyを達成している。
論文 参考訳(メタデータ) (2024-02-28T02:00:34Z) - OneBit: Towards Extremely Low-bit Large Language Models [69.15388378646395]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは、堅牢なトレーニングプロセスで優れたパフォーマンス(少なくとも、非量子化パフォーマンスの83%)を達成する。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - Enabling Fast 2-bit LLM on GPUs: Memory Alignment and Asynchronous
Dequantization [16.045819613951124]
大規模言語モデル(LLM)は、様々な領域において印象的な能力を示している。
最先端の手法は2ビット量子化をメインストリームのLCMに用いている。
1) 2ビット量子化の非無視的精度損失。
論文 参考訳(メタデータ) (2023-11-28T02:44:59Z) - LLM-FP4: 4-Bit Floating-Point Quantized Transformers [38.23587031169402]
大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。
整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。
LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
論文 参考訳(メタデータ) (2023-10-25T17:59:32Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM [6.85331857224501]
LLM(Large Language Models)は、メモリ要件と計算能力に関する重要なハードウェア上の課題を提起する。
LLMには2つの主要な量子化スキームがある: 粗粒(textite.g.$ channel-wise)量子化と細粒(textite.g.$ group-wise)量子化である。
我々は、高速な推論速度を確保しつつ優れた性能を維持するLLMのための新しいA8W4量子化であるDual Grained Quantization (DGQ)を紹介する。
論文 参考訳(メタデータ) (2023-10-07T14:50:28Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language
Models [59.176603429408225]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
最近のPTQ法はメモリフットプリントの削減に有効であるが、極端に低ビットの量子化に対処できない。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and
Acceleration [55.81584625546475]
アクティベーション・アウェア・ウェイト量子化(AWQ)は、大規模言語モデル(LLM)に対するハードウェアフレンドリーなアプローチである。
AWQはいかなるバックプロパゲーションや再構築にも依存していない。
命令チューニングされたLMと、初めてマルチモーダルなLMに対して優れた量子化性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z) - SmoothQuant: Accurate and Efficient Post-Training Quantization for Large
Language Models [18.251431556495184]
大規模言語モデル(LLM)は優れた性能を示すが、計算とメモリ集約性がある。
SmoothQuant, トレーニング不要, 精度保存, 汎用的なポストトレーニング量子化ソリューションを提案する。
最大1.56倍の高速化と2倍のメモリ削減を実現した。
論文 参考訳(メタデータ) (2022-11-18T18:59:33Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。