論文の概要: QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving
- arxiv url: http://arxiv.org/abs/2405.04532v2
- Date: Fri, 10 May 2024 15:58:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 13:16:44.231429
- Title: QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving
- Title(参考訳): QServe: W4A8KV4 量子化と効率的な LLM 実行のためのシステム共設計
- Authors: Yujun Lin, Haotian Tang, Shang Yang, Zhekai Zhang, Guangxuan Xiao, Chuang Gan, Song Han,
- Abstract要約: 量子化は大規模言語モデル(LLM)の推論を加速させる。
既存のINT4量子化メソッドは、重みや部分和を復号化する場合、実行時の大きなオーバーヘッドに悩まされる。
4ビット重み、8ビットアクティベーション、4ビットKVキャッシュを備えたW4A8KV4量子化アルゴリズムQoQを導入する。
QServeは、Llama-3-8BをA100で1.2倍、L40Sで1.4倍、Qwen-721.5BをA100で2.4倍、L40Sで3.5倍、達成可能な最大機能を改善する。
- 参考スコア(独自算出の注目度): 52.31791050376249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization can accelerate large language model (LLM) inference. Going beyond INT8 quantization, the research community is actively exploring even lower precision, such as INT4. Nonetheless, state-of-the-art INT4 quantization techniques only accelerate low-batch, edge LLM inference, failing to deliver performance gains in large-batch, cloud-based LLM serving. We uncover a critical issue: existing INT4 quantization methods suffer from significant runtime overhead (20-90%) when dequantizing either weights or partial sums on GPUs. To address this challenge, we introduce QoQ, a W4A8KV4 quantization algorithm with 4-bit weight, 8-bit activation, and 4-bit KV cache. QoQ stands for quattuor-octo-quattuor, which represents 4-8-4 in Latin. QoQ is implemented by the QServe inference library that achieves measured speedup. The key insight driving QServe is that the efficiency of LLM serving on GPUs is critically influenced by operations on low-throughput CUDA cores. Building upon this insight, in QoQ algorithm, we introduce progressive quantization that can allow low dequantization overhead in W4A8 GEMM. Additionally, we develop SmoothAttention to effectively mitigate the accuracy degradation incurred by 4-bit KV quantization. In the QServe system, we perform compute-aware weight reordering and take advantage of register-level parallelism to reduce dequantization latency. We also make fused attention memory-bound, harnessing the performance gain brought by KV4 quantization. As a result, QServe improves the maximum achievable serving throughput of Llama-3-8B by 1.2x on A100, 1.4x on L40S; and Qwen1.5-72B by 2.4x on A100, 3.5x on L40S, compared to TensorRT-LLM. Remarkably, QServe on L40S GPU can achieve even higher throughput than TensorRT-LLM on A100. Thus, QServe effectively reduces the dollar cost of LLM serving by 3x. Code is available at https://github.com/mit-han-lab/qserve.
- Abstract(参考訳): 量子化は大規模言語モデル(LLM)の推論を加速させる。
INT8量子化を超えて、研究コミュニティはINT4のようなより低い精度を積極的に探求している。
それでも、最先端のINT4量子化技術は、低バッチでエッジなLLM推論を加速するだけで、大規模でクラウドベースのLLMサービスではパフォーマンス向上を達成できなかった。
既存のINT4量子化メソッドは、GPUの重み付けと部分和のいずれにおいても、大きなランタイムオーバーヘッド(20-90%)に悩まされている。
この課題に対処するために,4ビット重み,8ビットアクティベーション,4ビットKVキャッシュを備えたW4A8KV4量子化アルゴリズムであるQoQを導入する。
QoQ は quattuor-octo-quattuor の略で、ラテン語で 4-8-4 を表す。
QoQは、測定スピードアップを実現するQServe推論ライブラリによって実装されている。
QServeを駆動する重要な洞察は、GPU上で動作するLLMの効率が、低スループットのCUDAコアでの操作に大きく影響されていることである。
この知見に基づくQoQアルゴリズムでは、W4A8 GEMMにおける低量子化オーバーヘッドを許容できるプログレッシブ量子化を導入する。
さらに,4ビットKV量子化による精度劣化を効果的に軽減するために,SmoothAttentionを開発した。
QServeシステムでは,重み付けの重み付けを行い,レジスタレベルの並列性を利用して復号化遅延を低減する。
また、KV4量子化による性能向上を生かして、メモリバウンドを融合させる。
その結果、QServeは、Llama-3-8Bの最大サービススループットをA100上の1.2倍、L40S上の1.4倍、Qwen1.5-72BをA100上の2.4倍、L40S上の3.5倍、TensorRT-LLMと比較して改善した。
注目すべきなのは、L40S GPU上のQServeは、A100上のTensorRT-LLMよりも高いスループットを実現することができることだ。
このようにして、QServeはLLMのドルコストを3倍に効果的に削減する。
コードはhttps://github.com/mit-han-lab/qserve.comから入手できる。
関連論文リスト
- EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [62.904403513409484]
大規模言語モデル(LLM)は、現代の自然言語処理や人工知能に不可欠なものである。
LLMを圧縮する新しい量子化手法であるEfficientQAT(Efficient Quantization-Aware Training)を提案する。
広範囲な実験により、EfficientQATは、様々なモデルで以前の量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - FlattenQuant: Breaking Through the Inference Compute-bound for Large
Language Models with Per-tensor Quantization [6.931020818874328]
テンソル内の大きなチャネルを平らにすることでテンソルの最大値を大幅に低減し、最小の精度でテンソル当たりの量子化を実現するFlattenQuantという手法を提案する。
我々の研究は2$times$ speedupと2.3$times$ memory reduction for LLMs with negligible loss in accuracyを達成している。
論文 参考訳(メタデータ) (2024-02-28T02:00:34Z) - SmoothQuant+: Accurate and Efficient 4-bit Post-Training
WeightQuantization for LLM [13.035063417593534]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示している。
現在、4ビット後の量子化(PTQ)はLLMである程度の成功を収めている。
SmoothQuant+は4ビットの重みのみのPTQである。
論文 参考訳(メタデータ) (2023-12-06T11:10:55Z) - Atom: Low-bit Quantization for Efficient and Accurate LLM Serving [7.126191142715184]
我々は低ビット量子化手法であるAtomを導入し,精度の低下を無視して高いスループット向上を実現する。
Atomは低ビット演算子を使用することでサービスを大幅に強化し、低ビット量子化によるメモリ消費を大幅に削減する。
論文 参考訳(メタデータ) (2023-10-29T18:33:05Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM [6.85331857224501]
LLM(Large Language Models)は、メモリ要件と計算能力に関する重要なハードウェア上の課題を提起する。
LLMには2つの主要な量子化スキームがある: 粗粒(textite.g.$ channel-wise)量子化と細粒(textite.g.$ group-wise)量子化である。
我々は、高速な推論速度を確保しつつ優れた性能を維持するLLMのための新しいA8W4量子化であるDual Grained Quantization (DGQ)を紹介する。
論文 参考訳(メタデータ) (2023-10-07T14:50:28Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。