論文の概要: GPU-Accelerated INT8 Quantization for KV Cache Compression in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.04719v1
- Date: Thu, 08 Jan 2026 08:35:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.113299
- Title: GPU-Accelerated INT8 Quantization for KV Cache Compression in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるKVキャッシュ圧縮のためのGPU高速化INT8量子化
- Authors: Maanas Taneja, Purab Shingvi,
- Abstract要約: キー値(KV)キャッシュは、大きな言語モデルにおける推論中に重要なメモリボトルネックを示す。
我々は、KVキャッシュ圧縮のためのINT8量子化を実装し、最小の精度で4$times$メモリ削減を実現した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The key-value (KV) cache in large language models presents a significant memory bottleneck during inference, growing linearly with sequence length and often exceeding the memory footprint of model weights themselves. We implement and evaluate GPU-accelerated INT8 quantization for KV cache compression, achieving 4$\times$ memory reduction with minimal accuracy degradation. We develop four CUDA kernel variants -- naive, tiled, coarsened, and vectorized -- and benchmark them across realistic workload sizes up to 1 billion elements. Our vectorized kernel achieves up to 1,694$\times$ speedup over CPU baselines while maintaining reconstruction error below 0.004 and attention score error below 0.1 even for 8K-dimensional heads. These results demonstrate that INT8 quantization provides a practical approach for reducing memory pressure in LLM inference with negligible computational overhead (6--58ms) and minimal impact on downstream model behavior
- Abstract(参考訳): 大規模言語モデルにおけるキー値(KV)キャッシュは、推論中に重要なメモリボトルネックを示し、シーケンス長と線形に成長し、しばしばモデルウェイト自体のメモリフットプリントを超える。
我々は、KVキャッシュ圧縮のためのGPUアクセラレーションINT8量子化を実装し、最小精度で4$\times$メモリ削減を実現した。
CUDAカーネルの4つの変種 - ネイティブ、タイル付き、粗大化、ベクトル化 -- を開発し、それらを10億要素までの現実的なワークロードサイズにわたってベンチマークします。
ベクトル化されたカーネルは、最大1,694$\times$ CPUベースラインの高速化を実現し、8K次元ヘッドでも0.004以下の再構成エラーと0.1以下のアテンションスコアエラーを維持できる。
これらの結果から、INT8量子化は、無視可能な計算オーバーヘッド(6-58ms)と下流モデルの振る舞いへの影響を最小限に抑えたLLM推論におけるメモリ圧力を低減するための実践的なアプローチであることが示された。
関連論文リスト
- HCAttention: Extreme KV Cache Compression via Heterogeneous Attention Computing for LLMs [13.013668526921778]
既存のKVキャッシュ圧縮手法は、メモリが85%以上削減されたときに顕著な性能劣化を示す。
我々は、鍵量子化、値オフロード、動的KV消去を統合した異種アテンションフレームワークであるHCAttentionを提案する。
また,LongBenchベンチマークを用いて,KVキャッシュメモリのフットプリントを25%に縮めながら,本手法が完全アテンションモデルの精度を維持することを示した。
論文 参考訳(メタデータ) (2025-07-26T06:43:14Z) - CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。
まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。
提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文 参考訳(メタデータ) (2025-06-23T17:50:11Z) - Fine-tuning Quantized Neural Networks with Zeroth-order Optimization [21.0540879091664]
我々は、勾配推定のために連続量子化スケールを摂動する単純で効果的な方法である量子化ゼロ階最適化(QZO)を提案する。
QZOは4ビットLLMの合計メモリコストを18ドル以上削減でき、24GBのGPUでLlama-2-13Bを微調整できる。
論文 参考訳(メタデータ) (2025-05-19T17:55:15Z) - HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading [79.38548165722229]
HEADINFERはKVキャッシュをCPURAMにオフロードするが、GPU上のトランスフォーマー層のKVキャッシュを完全に保存する必要はない。
HEADINFERはメモリフットプリントを大幅に削減し,計算効率を向上することを示した。
論文 参考訳(メタデータ) (2025-02-18T06:26:05Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。