論文の概要: CodeGEMM: A Codebook-Centric Approach to Efficient GEMM in Quantized LLMs
- arxiv url: http://arxiv.org/abs/2512.17970v1
- Date: Fri, 19 Dec 2025 06:16:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.129867
- Title: CodeGEMM: A Codebook-Centric Approach to Efficient GEMM in Quantized LLMs
- Title(参考訳): CodeGEMM: 量子LLMにおける効率的なGEMMのためのコードブック中心アプローチ
- Authors: Gunho Park, Jeongin Bae, Byeongwook Kim, Baeseong park, Jiwon Ryu, Hoseung Kim, Se Jung Kwon, Dongsoo Lee,
- Abstract要約: 本稿では,コードブック中心のGEMMカーネルであるCodeGEMMについて紹介する。
Llama-3 モデルでは、CodeGEMM は2ビット構成で 1.83x (8B) と 8.93x (70B) のスピードアップを提供する。
- 参考スコア(独自算出の注目度): 14.5426213901124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weight-only quantization is widely used to mitigate the memory-bound nature of LLM inference. Codebook-based methods extend this trend by achieving strong accuracy in the extremely low-bit regime (e.g., 2-bit). However, current kernels rely on dequantization, which repeatedly fetches centroids and reconstructs weights, incurring substantial latency and cache pressure. We present CodeGEMM, a codebook-centric GEMM kernel that replaces dequantization with precomputed inner products between centroids and activations stored in a lightweight Psumbook. At inference, code indices directly gather these partial sums, eliminating per-element lookups and reducing the on-chip footprint. The kernel supports the systematic exploration of latency-memory-accuracy trade-offs under a unified implementation. On Llama-3 models, CodeGEMM delivers 1.83x (8B) and 8.93x (70B) speedups in the 2-bit configuration compared to state-of-the-art codebook-based quantization at comparable accuracy and further improves computing efficiency and memory subsystem utilization.
- Abstract(参考訳): 重みのみの量子化は、LLM推論のメモリバウンドの性質を緩和するために広く用いられている。
コードブックベースの手法は、非常に低ビット状態(例えば、2ビット)において強い精度を達成することで、この傾向を拡張している。
しかし、現在のカーネルはdequantizationに依存しており、これは繰り返しセントロイドをフェッチし、重みを再構築し、かなりのレイテンシとキャッシュ圧力を発生させる。
本稿では,コードブック中心のGEMMカーネルであるCodeGEMMについて紹介する。
推論では、コードインデックスがこれらの部分和を直接収集し、要素ごとのルックアップを排除し、オンチップのフットプリントを削減します。
カーネルは、統一された実装下でのレイテンシ-メモリ-精度トレードオフの体系的な探索をサポートする。
Llama-3 モデルでは、CodeGEMM は2ビット構成で 1.83x (8B) と 8.93x (70B) のスピードアップを提供する。
関連論文リスト
- SBVR: Summation of BitVector Representation for Efficient LLM Quantization [3.7018544730078413]
データ中の表現可能な点の数を制限することで量子化圧縮は、効率的な量子化の鍵となる。
既存のPTQ(Post-Training Quantization)ソリューションでは、ラウンドツーネアレス(RTN)ベースの方法とコードブックベースの方法の2つの主要なアプローチが採用されている。
SBVR(Summation of Bitplex Representation, ビットプレックス表現の要約)を提案する。
論文 参考訳(メタデータ) (2025-09-17T13:51:27Z) - Exploiting Discriminative Codebook Prior for Autoregressive Image Generation [54.14166700058777]
トークンベースの自己回帰画像生成システムは、まずトークンインデックスのシーケンスをコードブックでトークン化し、次にこれらのシーケンスを自己回帰パラダイムでモデル化する。
自己回帰生成モデルはインデックス値のみに基づいて訓練されるが、豊富なトークン類似性情報を含むコードブックにエンコードされた前者は利用されない。
近年の研究では、トークン上に単純なk平均クラスタリングを行い、コードブックを減らした生成モデルのトレーニングを容易にすることで、これを先に組み込もうとしている。
k-meansの代替として、差別的コードブック先駆者(DCPE)を提案する。
論文 参考訳(メタデータ) (2025-08-14T15:00:00Z) - FineQ: Software-Hardware Co-Design for Low-Bit Fine-Grained Mixed-Precision Quantization of LLMs [13.951330786310262]
FineQは、ソフトウェアとハードウェアの共同設計であり、大規模言語モデルの低ビット細粒度混合精度量子化のための設計である。
重みをよりきめ細かいクラスタに分割し、これらのクラスタ内の外れ値の分布を考慮する。
近似平均ビット幅でのSOTA混合精度量子化アルゴリズムと比較してモデル精度が向上する。
論文 参考訳(メタデータ) (2025-04-28T12:47:23Z) - Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。
LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。
LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文 参考訳(メタデータ) (2025-03-10T09:26:08Z) - Highly Optimized Kernels and Fine-Grained Codebooks for LLM Inference on Arm CPUs [0.8217552831952]
大きな言語モデル(LLM)は、言語理解と生成に関する考え方を変えました。
LLM量子化によく使われるグループ量子化形式は、計算上のオーバーヘッドとリソース集約型量子化プロセスを持つ。
本稿では,LLMの超低精度量子化のためのグループワイド非一様符号ブックに基づく量子化手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T03:44:29Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models [9.727062803700264]
量子化行列乗算のための効率的なカーネルであるLUT-GEMMを紹介する。
LUT-GEMMは資源集約化プロセスを取り除き、計算コストを削減する。
我々は,3ビット量子化を用いたOPT-175Bモデルに適用した場合,LUT-GEMMはトークン生成遅延を大幅に高速化することを示した。
論文 参考訳(メタデータ) (2022-06-20T03:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。