論文の概要: Fast Matrix Multiplications for Lookup Table-Quantized LLMs
- arxiv url: http://arxiv.org/abs/2407.10960v4
- Date: Fri, 17 Jan 2025 03:09:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:58:05.239490
- Title: Fast Matrix Multiplications for Lookup Table-Quantized LLMs
- Title(参考訳): テーブル量子LCMの高速行列乗算法
- Authors: Han Guo, William Brandon, Radostin Cholakov, Jonathan Ragan-Kelley, Eric P. Xing, Yoon Kim,
- Abstract要約: FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
- 参考スコア(独自算出の注目度): 58.11584672945781
- License:
- Abstract: The deployment of large language models (LLMs) is often constrained by memory bandwidth, where the primary bottleneck is the cost of transferring model parameters from the GPU's global memory to its registers. When coupled with custom kernels that fuse the dequantization and matmul operations, weight-only quantization can thus enable faster inference by reducing the amount of memory movement. However, developing high-performance kernels for weight-quantized LLMs presents substantial challenges, especially when the weights are compressed to non-evenly-divisible bit widths (e.g., 3 bits) with non-uniform, lookup table (LUT) quantization. This paper describes FLUTE, a flexible lookup table engine for LUT-quantized LLMs, which uses offline restructuring of the quantized weight matrix to minimize bit manipulations associated with unpacking, and vectorization and duplication of the lookup table to mitigate shared memory bandwidth constraints. At batch sizes < 32 and quantization group size of 128 (typical in LLM inference), the FLUTE kernel can be 2-4x faster than existing GEMM kernels. As an application of FLUTE, we explore a simple extension to lookup table-based NormalFloat quantization and apply it to quantize LLaMA3 to various configurations, obtaining competitive quantization performance against strong baselines while obtaining an end-to-end throughput increase of 1.5 to 2 times.
- Abstract(参考訳): 大規模言語モデル(LLM)のデプロイメントは、しばしばメモリ帯域幅によって制限される。主なボトルネックは、モデルパラメータをGPUのグローバルメモリからレジスタに転送するコストである。
量子化と行列演算を融合させるカスタムカーネルと組み合わせることで、メモリ移動量を減らすことで、より高速な推論が可能になる。
しかし、重み量子化LDMのための高性能カーネルの開発は、特に重みが一様でないルックアップテーブル(LUT)量子化によって、一様でないビット幅(例えば3ビット)に圧縮される場合、大きな課題となる。
本稿では,LUT量子化LLMのためのフレキシブルなルックアップテーブルエンジンであるFLUTEについて述べる。これは,量子化重み行列のオフライン再構成を用いて,アンパックに伴うビット操作を最小化し,ルックアップテーブルのベクトル化と複製により,共有メモリ帯域幅の制約を緩和する。
32以下のバッチサイズと128の量子化グループサイズ(典型的にはLLM推論)では、FLUTEカーネルは既存のGEMMカーネルよりも2-4倍高速である。
FLUTEの応用として、テーブルベースのNormalFloat量子化への簡単な拡張を検討し、LLaMA3を様々な構成に量子化し、1.5倍から2倍のスループット向上を達成しつつ、強力なベースラインに対する競合量子化性能を得る。
関連論文リスト
- MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - FlattenQuant: Breaking Through the Inference Compute-bound for Large
Language Models with Per-tensor Quantization [6.931020818874328]
テンソル内の大きなチャネルを平らにすることでテンソルの最大値を大幅に低減し、最小の精度でテンソル当たりの量子化を実現するFlattenQuantという手法を提案する。
我々の研究は2$times$ speedupと2.3$times$ memory reduction for LLMs with negligible loss in accuracyを達成している。
論文 参考訳(メタデータ) (2024-02-28T02:00:34Z) - QUICK: Quantization-aware Interleaving and Conflict-free Kernel for
efficient LLM inference [9.031180368026071]
QUICKは、最先端の混合精度行列乗算カーネルの共有メモリバンク競合問題に対処する。
我々は、多くのNVIDIA GPUデバイス上で、AutoAWQの既存のカーネルを最大1.91倍のスピードアップし、代表LLMモデルの最大1.94倍のスループットを示す。
論文 参考訳(メタデータ) (2024-02-15T16:38:41Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。