論文の概要: SmoothQuant: Accurate and Efficient Post-Training Quantization for Large
Language Models
- arxiv url: http://arxiv.org/abs/2211.10438v1
- Date: Fri, 18 Nov 2022 18:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 13:50:46.291077
- Title: SmoothQuant: Accurate and Efficient Post-Training Quantization for Large
Language Models
- Title(参考訳): SmoothQuant:大規模言語モデルの高精度かつ効率的なポストトレーニング量子化
- Authors: Guangxuan Xiao, Ji Lin, Mickael Seznec, Julien Demouth, Song Han
- Abstract要約: 大規模言語モデル(LLM)は優れた性能を示すが、計算とメモリ集約性がある。
SmoothQuant, トレーニング不要, 精度保存, 汎用的なポストトレーニング量子化ソリューションを提案する。
最大1.56倍の高速化と2倍のメモリ削減を実現した。
- 参考スコア(独自算出の注目度): 17.68876161969959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) show excellent performance but are compute- and
memory-intensive. Quantization can reduce memory and accelerate inference.
However, for LLMs beyond 100 billion parameters, existing methods cannot
maintain accuracy or do not run efficiently on hardware. We propose
SmoothQuant, a training-free, accuracy-preserving, and general-purpose
post-training quantization (PTQ) solution to enable 8-bit weight, 8-bit
activation (W8A8) quantization for LLMs that can be implemented efficiently. We
observe that systematic outliers appear at fixed activation channels. Based on
the fact that weights are easy to quantize while activations are not,
SmoothQuant smooths the activation outliers by migrating the quantization
difficulty from activations to weights with a mathematically equivalent
transformation. SmoothQuant enables an INT8 quantization of both weights and
activations for all the GEMMs in LLMs, including OPT-175B, BLOOM-176B and
GLM-130B. SmoothQuant has better hardware efficiency than existing techniques
using mixed-precision activation quantization or weight-only quantization. We
demonstrate up to 1.56x speedup and 2x memory reduction for LLMs with
negligible loss in accuracy. Thanks to the hardware-friendly design, we
integrate SmoothQuant into FasterTransformer, a state-of-the-art LLM serving
framework, and achieve faster inference speed with half the number of GPUs
compared to FP16. Our work offers a turn-key solution that reduces hardware
costs and democratizes LLMs. Code will be released at:
https://github.com/mit-han-lab/smoothquant.
- Abstract(参考訳): 大規模言語モデル(LLM)は優れた性能を示すが、計算とメモリ集約である。
量子化はメモリを減らし、推論を加速する。
しかし、1000億のパラメータを超えるLSMでは、既存のメソッドは精度を維持することができず、ハードウェア上で効率的に動作しない。
そこで本研究では,学習自由,正確性,汎用的な学習後量子化 (ptq) ソリューションである smoothquant を提案し,効率的に実装可能な llm の 8 ビットウェイト、8 ビットアクティベーション (w8a8) 量子化を実現する。
一定の活性化チャネルに系統的異常が現れることを観察する。
SmoothQuantは、ウェイトがアクティベーションが存在しない間に量子化が容易であるという事実に基づいて、アクティベーションからウェイトへの量子化の難しさを数学的に等価な変換で移行することによって、アクティベーションアウトリーを滑らかにする。
SmoothQuantは、OPT-175B、BLOOM-176B、GLM-130Bを含む全てのGEMMの重量と活性化の両方をINT8量子化することができる。
SmoothQuantは、混合精度のアクティベーション量子化や重量のみの量子化を用いた既存の技術よりも優れたハードウェア効率を持つ。
llmでは最大1.56倍の高速化と2倍のメモリ削減が実現できた。
ハードウェアフレンドリーな設計のおかげで、SmoothQuantを最先端のLLMサービスフレームワークであるFasterTransformerに統合し、FP16に比べてGPUの半数の速度で高速な推論速度を実現する。
私たちの仕事は、ハードウェアコストを削減し、LLMを民主化するターンキーソリューションを提供します。
コードはhttps://github.com/mit-han-lab/smoothquant.com/でリリースされる。
関連論文リスト
- FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高めるための新しいポストトレーニング量子化手法であるFlatQuantを提案する。
提案手法では,各線形層に配向した最適アフィン変換を,軽量な対象ランタイムを介して数時間で校正する。
推論レイテンシーのために、FlatQuantは、プリ量子化変換によって引き起こされる遅延を、QuatRotの0.26xから単に$textbf0.07x$に減らし、プリフィルの$textbf2.3x$とデコードのための$textbf1.7x$のスピードアップをもたらす。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - FlattenQuant: Breaking Through the Inference Compute-bound for Large
Language Models with Per-tensor Quantization [6.931020818874328]
テンソル内の大きなチャネルを平らにすることでテンソルの最大値を大幅に低減し、最小の精度でテンソル当たりの量子化を実現するFlattenQuantという手法を提案する。
我々の研究は2$times$ speedupと2.3$times$ memory reduction for LLMs with negligible loss in accuracyを達成している。
論文 参考訳(メタデータ) (2024-02-28T02:00:34Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - SmoothQuant+: Accurate and Efficient 4-bit Post-Training
WeightQuantization for LLM [13.035063417593534]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示している。
現在、4ビット後の量子化(PTQ)はLLMである程度の成功を収めている。
SmoothQuant+は4ビットの重みのみのPTQである。
論文 参考訳(メタデータ) (2023-12-06T11:10:55Z) - Revisiting Block-based Quantisation: What is Important for Sub-8-bit LLM
Inference? [21.243853199880807]
大規模言語モデル(LLM)の統計的および学習特性について検討する。
ブロック量子化(ブロック量子化)を LLM に適用する。
ほぼロスレスで量子化された6ビットのLSMは、float32ベースラインよりも19倍高い算術密度と5倍のメモリ密度を実現しています。
論文 参考訳(メタデータ) (2023-10-08T09:05:14Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。
AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。
また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。