論文の概要: XQuant: Breaking the Memory Wall for LLM Inference with KV Cache Rematerialization
- arxiv url: http://arxiv.org/abs/2508.10395v1
- Date: Thu, 14 Aug 2025 06:52:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.207075
- Title: XQuant: Breaking the Memory Wall for LLM Inference with KV Cache Rematerialization
- Title(参考訳): XQuant: KVキャッシュ再物質化によるLCM推論のためのメモリウォールの破壊
- Authors: Aditya Tomar, Coleman Hooper, Minjae Lee, Haocheng Xi, Rishabh Tiwari, Wonjun Kang, Luca Manolache, Michael W. Mahoney, Kurt Keutzer, Amir Gholami,
- Abstract要約: LLM推論はメモリフットプリントと帯域幅の要求のために困難である。
XQuantは、ハードウェアプラットフォームの急速に増加する計算能力を利用して、メモリボトルネックを取り除く。
XQuant-CLは、極端な圧縮のためにX埋め込みの層間類似性を利用する。
- 参考スコア(独自算出の注目度): 58.92253769255316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although LLM inference has emerged as a critical workload for many downstream applications, efficiently inferring LLMs is challenging due to the substantial memory footprint and bandwidth requirements. In parallel, compute capabilities have steadily outpaced both memory capacity and bandwidth over the last few decades, a trend that remains evident in modern GPU hardware and exacerbates the challenge of LLM inference. As such, new algorithms are emerging that trade increased computation for reduced memory operations. To that end, we present XQuant, which takes advantage of this trend, enabling an order-of-magnitude reduction in memory consumption through low-bit quantization with substantial accuracy benefits relative to state-of-the-art KV cache quantization methods. We accomplish this by quantizing and caching the layer input activations X, instead of using standard KV caching, and then rematerializing the Keys and Values on-the-fly during inference. This results in an immediate 2$\times$ memory savings compared to KV caching. By applying XQuant, we achieve up to $\sim 7.7\times$ memory savings with $<0.1$ perplexity degradation compared to the FP16 baseline. Furthermore, our approach leverages the fact that X values are similar across layers. Building on this observation, we introduce XQuant-CL, which exploits the cross-layer similarity in the X embeddings for extreme compression. Across different models, XQuant-CL attains up to 10$\times$ memory savings relative to the FP16 baseline with only 0.01 perplexity degradation, and 12.5$\times$ memory savings with only $0.1$ perplexity degradation. XQuant exploits the rapidly increasing compute capabilities of hardware platforms to eliminate the memory bottleneck, while surpassing state-of-the-art KV cache quantization methods and achieving near-FP16 accuracy across a wide range of models.
- Abstract(参考訳): LLM推論は、多くのダウンストリームアプリケーションにとって重要な作業負荷として現れてきたが、メモリフットプリントと帯域幅の要求のために、効率よくLLMを推定することは困難である。
並行して、計算能力は過去数十年間でメモリ容量と帯域幅の両方を着実に上回っている。
そのため、メモリ操作を減らすために計算量を増やす新しいアルゴリズムが登場している。
そこで本研究では,この傾向を生かしたXQuantを提案する。これにより,最先端KVキャッシュ量子化法と比較して,精度の高い低ビット量子化によるメモリ消費のオーダー・オブ・マグニチュード低減が可能となる。
我々は、標準のKVキャッシュの代わりに層入力アクティベーションXを定量化し、キャッシングし、推論中にキーとバリューをオンザフライで再物質化する。
これにより、KVキャッシュと比較して、即座に2$\times$メモリの節約が可能になる。
XQuantを適用することで、FP16ベースラインと比較して最大$\sim 7.7\times$メモリ節約と$<0.1$パープレキシティ劣化を実現します。
さらに、私たちのアプローチでは、X値が層間で類似しているという事実を活用しています。
この観測に基づいて, 極端な圧縮のために, X埋め込みの層間類似性を利用したXQuant-CLを導入する。
異なるモデル全体で、XQuant-CLはFP16ベースラインに対して最大10$\times$メモリの保存が可能で、パープレキシティがわずか0.01パープレキシティが12.5$\times$メモリの保存は0.1$パープレキシティがわずかである。
XQuantはハードウェアプラットフォームの急速に増加する計算能力を利用してメモリボトルネックをなくし、最先端のKVキャッシュ量子化手法を超越し、広範囲のモデルでほぼFP16精度を実現している。
関連論文リスト
- CalibQuant: 1-Bit KV Cache Quantization for Multimodal LLMs [45.77132019859689]
CalibQuantは、メモリと計算オーバーヘッドの両方を大幅に削減する、視覚的な量子化戦略である。
InternVLモデルのスループットは10倍に向上する。
論文 参考訳(メタデータ) (2025-02-15T05:08:01Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。