論文の概要: LiquidGEMM: Hardware-Efficient W4A8 GEMM Kernel for High-Performance LLM Serving
- arxiv url: http://arxiv.org/abs/2509.01229v1
- Date: Mon, 01 Sep 2025 08:16:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.591229
- Title: LiquidGEMM: Hardware-Efficient W4A8 GEMM Kernel for High-Performance LLM Serving
- Title(参考訳): LiquidGEMM: ハードウェア効率の良いW4A8 GEMMカーネル
- Authors: Huanqi Hu, Bowen Xiao, Shixuan Sun, Jianian Yin, Zhexi Zhang, Xiang Luo, Chengquan Jiang, Weiqi Xu, Xiaoying Jia, Xin Liu, Minyi Guo,
- Abstract要約: LiquidGEMMは、4ビットの重みと8ビットのアクティベーション量子化のためのハードウェア効率の量子化手法である。
LiquidGEMMは最先端のW4A8カーネル上で最大2.90倍のスピードアップを実現し、最大4.94倍のエンドツーエンドのシステムレベルのスピードアップを実現している。
- 参考スコア(独自算出の注目度): 16.392977892243895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization is a critical technique for accelerating LLM inference by reducing memory footprint and improving computational efficiency. Among various schemes, 4-bit weight and 8-bit activation quantization (W4A8) offers a strong balance between accuracy and performance. However, existing W4A8 GEMM kernels fall short in practice due to inefficient dequantization on CUDA Cores, which cannot keep pace with the high throughput of Tensor Cores. In this paper, we present LiquidGEMM, a hardware-efficient W4A8 GEMM kernel for efficient LLM serving. LiquidGEMM designs two key techniques: LiquidQuant, a hardware-efficient quantization method that enables fast, overflow-safe dequantization using just two arithmetic instructions per four elements; and an implicit fine-grained pipeline that fully overlaps weight loading, dequantization, and MMA across warp groups without software synchronization or redundant memory traffic. Experimental results show that LiquidGEMM achieves up to 2.90x speedup over state-of-the-art W4A8 kernels and up to 4.94x end-to-end system-level speedup. Compared to various quantized GEMM kernels in NVIDIA TensorRT-LLM, LiquidGEMM delivers 1.12-1.63x performance gains, and achieves up to 1.63x system-level speedup.
- Abstract(参考訳): 量子化は、メモリフットプリントを減らし、計算効率を向上させることで、LCM推論を加速させる重要な技術である。
様々なスキームの中で、4ビットの重みと8ビットのアクティベーション量子化(W4A8)は精度と性能のバランスが強い。
しかし、既存のW4A8 GEMMカーネルはCUDAコアの非効率な量子化のため、実際には不足している。
本稿では,ハードウェア効率のよいW4A8 GEMMカーネルであるLiquidGEMMについて述べる。
LiquidGEMMは、ハードウェア効率のよい量子化手法であるLiquidQuantを設計し、4要素につき2つの演算命令だけで高速でオーバーフローセーフな量子化を可能にする。
実験の結果、LiquidGEMMは最先端のW4A8カーネルを最大2.90倍、エンドツーエンドのシステムレベルを最大4.94倍高速化することがわかった。
NVIDIA TensorRT-LLMの様々な量子化GEMMカーネルと比較して、LiquidGEMMは1.12-1.63倍の性能向上を実現し、最大1.63倍のシステムレベルの高速化を実現している。
関連論文リスト
- FlexQ: Efficient Post-training INT6 Quantization for LLM Serving via Algorithm-System Co-Design [18.37843481770631]
大規模言語モデル(LLM)は例外的な性能を示すが、かなりのメモリと計算コストを必要とする。
既存のINT4/INT8量子化はこれらのコストを削減するが、しばしば精度を低下させるか、最適効率を欠く。
アルゴリズムの革新とシステムレベルの評価を組み合わせた新しいフレームワークFlexQを提案する。
論文 参考訳(メタデータ) (2025-08-06T12:47:05Z) - COMET: Towards Partical W4A4KV4 LLMs Serving [37.30529940231099]
量子化は、端末デバイスやクラウドデータセンターで大規模言語モデル(LLM)を提供するオーバーヘッドを低減するための圧縮技術である。
本稿では,ほとんどのアクティベーションを4ビットに圧縮し,精度損失を無視できる新しい混合精度量子化アルゴリズム(FMPQ)を提案する。
我々は、最適化されたW4Axカーネルを推論フレームワークCOMETに統合し、人気のあるLLMをサポートするための効率的な管理を提供する。
論文 参考訳(メタデータ) (2024-10-16T02:16:53Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - QQQ: Quality Quattuor-Bit Quantization for Large Language Models [22.61858069040346]
QQQは、4ビットの重みと8ビットのアクティベーションを持つQuality Quattuor-bit Quantization法である。
QQQは適応的平滑化とヘッセン型補償を採用し、広範囲のトレーニングを伴わずに量子化されたモデルの性能を大幅に向上させる。
専用チャネルごとのW4A8 GEMMとグループごとのW4A8 GEMMは、FP16 GEMMよりも3.67$times$と3.29$times$の大幅な速度向上を実現している。
論文 参考訳(メタデータ) (2024-06-14T10:23:45Z) - Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM [6.85331857224501]
LLM(Large Language Models)は、メモリ要件と計算能力に関する重要なハードウェア上の課題を提起する。
LLMには2つの主要な量子化スキームがある: 粗粒(textite.g.$ channel-wise)量子化と細粒(textite.g.$ group-wise)量子化である。
我々は、高速な推論速度を確保しつつ優れた性能を維持するLLMのための新しいA8W4量子化であるDual Grained Quantization (DGQ)を紹介する。
論文 参考訳(メタデータ) (2023-10-07T14:50:28Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。