論文の概要: CodeGEMM: A Codebook-Centric Approach to Efficient GEMM in Quantized LLMs
- arxiv url: http://arxiv.org/abs/2512.17970v1
- Date: Fri, 19 Dec 2025 06:16:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.129867
- Title: CodeGEMM: A Codebook-Centric Approach to Efficient GEMM in Quantized LLMs
- Title(参考訳): CodeGEMM: 量子LLMにおける効率的なGEMMのためのコードブック中心アプローチ
- Authors: Gunho Park, Jeongin Bae, Byeongwook Kim, Baeseong park, Jiwon Ryu, Hoseung Kim, Se Jung Kwon, Dongsoo Lee,
- Abstract要約: 本稿では,コードブック中心のGEMMカーネルであるCodeGEMMについて紹介する。
Llama-3 モデルでは、CodeGEMM は2ビット構成で 1.83x (8B) と 8.93x (70B) のスピードアップを提供する。
- 参考スコア(独自算出の注目度): 14.5426213901124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weight-only quantization is widely used to mitigate the memory-bound nature of LLM inference. Codebook-based methods extend this trend by achieving strong accuracy in the extremely low-bit regime (e.g., 2-bit). However, current kernels rely on dequantization, which repeatedly fetches centroids and reconstructs weights, incurring substantial latency and cache pressure. We present CodeGEMM, a codebook-centric GEMM kernel that replaces dequantization with precomputed inner products between centroids and activations stored in a lightweight Psumbook. At inference, code indices directly gather these partial sums, eliminating per-element lookups and reducing the on-chip footprint. The kernel supports the systematic exploration of latency-memory-accuracy trade-offs under a unified implementation. On Llama-3 models, CodeGEMM delivers 1.83x (8B) and 8.93x (70B) speedups in the 2-bit configuration compared to state-of-the-art codebook-based quantization at comparable accuracy and further improves computing efficiency and memory subsystem utilization.
- Abstract(参考訳): 重みのみの量子化は、LLM推論のメモリバウンドの性質を緩和するために広く用いられている。
コードブックベースの手法は、非常に低ビット状態(例えば、2ビット)において強い精度を達成することで、この傾向を拡張している。
しかし、現在のカーネルはdequantizationに依存しており、これは繰り返しセントロイドをフェッチし、重みを再構築し、かなりのレイテンシとキャッシュ圧力を発生させる。
本稿では,コードブック中心のGEMMカーネルであるCodeGEMMについて紹介する。
推論では、コードインデックスがこれらの部分和を直接収集し、要素ごとのルックアップを排除し、オンチップのフットプリントを削減します。
カーネルは、統一された実装下でのレイテンシ-メモリ-精度トレードオフの体系的な探索をサポートする。
Llama-3 モデルでは、CodeGEMM は2ビット構成で 1.83x (8B) と 8.93x (70B) のスピードアップを提供する。
関連論文リスト
- SBVR: Summation of BitVector Representation for Efficient LLM Quantization [3.7018544730078413]
データ中の表現可能な点の数を制限することで量子化圧縮は、効率的な量子化の鍵となる。
既存のPTQ(Post-Training Quantization)ソリューションでは、ラウンドツーネアレス(RTN)ベースの方法とコードブックベースの方法の2つの主要なアプローチが採用されている。
SBVR(Summation of Bitplex Representation, ビットプレックス表現の要約)を提案する。
論文 参考訳(メタデータ) (2025-09-17T13:51:27Z) - FineQ: Software-Hardware Co-Design for Low-Bit Fine-Grained Mixed-Precision Quantization of LLMs [13.951330786310262]
FineQは、ソフトウェアとハードウェアの共同設計であり、大規模言語モデルの低ビット細粒度混合精度量子化のための設計である。
重みをよりきめ細かいクラスタに分割し、これらのクラスタ内の外れ値の分布を考慮する。
近似平均ビット幅でのSOTA混合精度量子化アルゴリズムと比較してモデル精度が向上する。
論文 参考訳(メタデータ) (2025-04-28T12:47:23Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models [9.727062803700264]
量子化行列乗算のための効率的なカーネルであるLUT-GEMMを紹介する。
LUT-GEMMは資源集約化プロセスを取り除き、計算コストを削減する。
我々は,3ビット量子化を用いたOPT-175Bモデルに適用した場合,LUT-GEMMはトークン生成遅延を大幅に高速化することを示した。
論文 参考訳(メタデータ) (2022-06-20T03:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。