論文の概要: SmoothQuant: Accurate and Efficient Post-Training Quantization for Large
Language Models
- arxiv url: http://arxiv.org/abs/2211.10438v5
- Date: Mon, 5 Jun 2023 21:21:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 21:24:25.466217
- Title: SmoothQuant: Accurate and Efficient Post-Training Quantization for Large
Language Models
- Title(参考訳): SmoothQuant:大規模言語モデルの高精度かつ効率的なポストトレーニング量子化
- Authors: Guangxuan Xiao, Ji Lin, Mickael Seznec, Hao Wu, Julien Demouth, Song
Han
- Abstract要約: 大規模言語モデル(LLM)は優れた性能を示すが、計算とメモリ集約性がある。
SmoothQuant, トレーニング不要, 精度保存, 汎用的なポストトレーニング量子化ソリューションを提案する。
最大1.56倍の高速化と2倍のメモリ削減を実現した。
- 参考スコア(独自算出の注目度): 18.251431556495184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) show excellent performance but are compute- and
memory-intensive. Quantization can reduce memory and accelerate inference.
However, existing methods cannot maintain accuracy and hardware efficiency at
the same time. We propose SmoothQuant, a training-free, accuracy-preserving,
and general-purpose post-training quantization (PTQ) solution to enable 8-bit
weight, 8-bit activation (W8A8) quantization for LLMs. Based on the fact that
weights are easy to quantize while activations are not, SmoothQuant smooths the
activation outliers by offline migrating the quantization difficulty from
activations to weights with a mathematically equivalent transformation.
SmoothQuant enables an INT8 quantization of both weights and activations for
all the matrix multiplications in LLMs, including OPT, BLOOM, GLM, MT-NLG, and
LLaMA family. We demonstrate up to 1.56x speedup and 2x memory reduction for
LLMs with negligible loss in accuracy. SmoothQuant enables serving 530B LLM
within a single node. Our work offers a turn-key solution that reduces hardware
costs and democratizes LLMs. Code is available at
https://github.com/mit-han-lab/smoothquant.
- Abstract(参考訳): 大規模言語モデル(LLM)は優れた性能を示すが、計算とメモリ集約である。
量子化はメモリを減らし、推論を加速する。
しかし、既存の手法では精度とハードウェアの効率を同時に維持できない。
llmsの8ビットウェイト、8ビットアクティベーション(w8a8)量子化を実現するため,ptqソリューションであるsmoothquantを提案する。
SmoothQuantは、活性化中に重みが量子化しやすいという事実に基づいて、数学的に等価な変換で、活性化から重みへの量子化の難しさをオフラインで移動させることにより、アクティベーションアウトリーを滑らかにする。
SmoothQuantは、OPT、BLOOM、GLM、MT-NLG、LLaMAファミリーを含むLLMのすべての行列乗法におけるウェイトとアクティベーションの両方のINT8量子化を可能にする。
llmでは最大1.56倍の高速化と2倍のメモリ削減が実現できた。
SmoothQuantは、単一のノード内で530B LLMを提供する。
私たちの仕事は、ハードウェアコストを削減し、LLMを民主化するターンキーソリューションを提供します。
コードはhttps://github.com/mit-han-lab/smoothquantで入手できる。
関連論文リスト
- FlattenQuant: Breaking Through the Inference Compute-bound for Large
Language Models with Per-tensor Quantization [6.931020818874328]
テンソル内の大きなチャネルを平らにすることでテンソルの最大値を大幅に低減し、最小の精度でテンソル当たりの量子化を実現するFlattenQuantという手法を提案する。
我々の研究は2$times$ speedupと2.3$times$ memory reduction for LLMs with negligible loss in accuracyを達成している。
論文 参考訳(メタデータ) (2024-02-28T02:00:34Z) - OneBit: Towards Extremely Low-bit Large Language Models [69.15388378646395]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは、堅牢なトレーニングプロセスで優れたパフォーマンス(少なくとも、非量子化パフォーマンスの83%)を達成する。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [55.61026644837707]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
これにより、1つのGPU上で0.5時間以内に70億重量のLLMをバイナライズし、良好な時間効率を示すことができる。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - SmoothQuant+: Accurate and Efficient 4-bit Post-Training
WeightQuantization for LLM [13.035063417593534]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示している。
現在、4ビット後の量子化(PTQ)はLLMである程度の成功を収めている。
SmoothQuant+は4ビットの重みのみのPTQである。
論文 参考訳(メタデータ) (2023-12-06T11:10:55Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Revisiting Block-based Quantisation: What is Important for Sub-8-bit LLM
Inference? [21.243853199880807]
大規模言語モデル(LLM)の統計的および学習特性について検討する。
ブロック量子化(ブロック量子化)を LLM に適用する。
ほぼロスレスで量子化された6ビットのLSMは、float32ベースラインよりも19倍高い算術密度と5倍のメモリ密度を実現しています。
論文 参考訳(メタデータ) (2023-10-08T09:05:14Z) - QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models [85.02796681773447]
量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。
その動機は量子化と適応の自由の不均衡度にある。
QA-LoRAは数行のコードで簡単に実装できる。
論文 参考訳(メタデータ) (2023-09-26T07:22:23Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language
Models [59.176603429408225]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
最近のPTQ法はメモリフットプリントの削減に有効であるが、極端に低ビットの量子化に対処できない。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and
Acceleration [55.81584625546475]
アクティベーション・アウェア・ウェイト量子化(AWQ)は、大規模言語モデル(LLM)に対するハードウェアフレンドリーなアプローチである。
AWQはいかなるバックプロパゲーションや再構築にも依存していない。
命令チューニングされたLMと、初めてマルチモーダルなLMに対して優れた量子化性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。