論文の概要: RDKV: Rate-Distortion Bit Allocation for Joint Eviction and Quantization of the KV Cache
- arxiv url: http://arxiv.org/abs/2605.08317v1
- Date: Fri, 08 May 2026 15:15:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.561328
- Title: RDKV: Rate-Distortion Bit Allocation for Joint Eviction and Quantization of the KV Cache
- Title(参考訳): RDKV:KVキャッシュの共振および量子化のためのレート歪みビット割り当て
- Authors: Junkai Zhang, Hang Guo, Luca Benini, Yawei Li,
- Abstract要約: 大規模言語モデル(LLM)は様々なタスクにまたがって高い性能を示すが、長い入力コンテキストでの推論はメモリサイズと帯域幅によってボトルネックとなる。
既存のメソッドは、消去または量子化によってキャッシュを減らすが、通常は2つを分離して扱う。
本稿では、KVキャッシュ圧縮をレート歪み問題とみなし、同じビット割り当て方式の2つの端点の消去と量子化を行う。
- 参考スコア(独自算出の注目度): 28.54642982960947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown strong performance across diverse tasks, but their inference with long input contexts is bottlenecked by memory size and bandwidth. The Key-Value (KV) cache size grows linearly with sequence length and needs to be re-read from off-chip high-bandwidth memory (HBM) to on-chip memory at every decoding step, resulting in memory-bound inference. Existing methods reduce the cache by either eviction or quantization, but typically treat the two in isolation. In this paper, we cast KV cache compression as a rate-distortion problem, under which eviction and quantization are two end-points of the same bit allocation scheme. This exposes the need to optimize them jointly, motivating our method, RDKV (Rate-Distortion KV cache compression). RDKV derives the weight of each token or channel from the distortion that compression induces on the attention computation. Based on these weights, it assigns each token or channel a bit-width ranging from full precision down to zero bits guided by reverse water-filling, applied once after the prefilling stage. Experiments on LongBench, RULER, and InfiniteBench show that RDKV outperforms the best evaluated baseline by 9.1% on average. On LongBench it recovers 97.81% of full-cache accuracy with only 2.48% cache retention. Compared with full-cache FlashAttention-2 decoding, it achieves 4.5x decode speedup and 1.9x peak memory reduction with 128K context length, while maintaining comparable performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクに対して高いパフォーマンスを示すが、長い入力コンテキストでの推論はメモリサイズと帯域幅によってボトルネックとなる。
キーバリュー(KV)キャッシュサイズはシーケンス長とともに線形に増加し、デコードステップ毎にオフチップのハイバンド幅メモリ(HBM)からオンチップメモリに再読み込みする必要があるため、メモリバウンド推論が発生する。
既存のメソッドは、消去または量子化によってキャッシュを減らすが、通常は2つを分離して扱う。
本稿では、KVキャッシュ圧縮をレート歪み問題とみなし、同じビット割り当て方式の2つの端点の消去と量子化を行う。
これにより、共同で最適化する必要がなくなり、RDKV(Rate-Distortion KV cache compression)というメソッドを動機付けます。
RDKVは、各トークンやチャネルの重みを、圧縮が注意計算で引き起こす歪みから導き出す。
これらの重みに基づいて、各トークンまたはチャネルに全精度から、前処理段階の後に一度適用された逆水充填によって導かれるゼロビットまでのビット幅を割り当てる。
LongBench、RULER、InfiniteBenchの実験では、RDKVは平均9.1%で評価されたベースラインを上回っている。
LongBenchでは、全キャッシュ精度の97.81%を回復し、キャッシュ保持率は2.48%に過ぎなかった。
フルキャッシュのFlashAttention-2デコードと比較すると、4.5倍のデコードスピードアップと1.9倍のピークメモリ削減を実現し、128Kのコンテキスト長を持つ。
関連論文リスト
- KVReviver: Reversible KV Cache Compression with Sketch-Based Token Reconstruction [20.53279247581787]
スケッチアルゴリズムに基づく可逆的なKVキャッシュ圧縮手法であるKVReviverを提案する。
2kのコンテキストでは、同じエンドツーエンドの推論精度を維持しながら、KVキャッシュの予算の10%しか必要としない。
32kのコンテキストでは、同等または同等の精度の2%の精度の損失を達成する。
論文 参考訳(メタデータ) (2025-12-01T03:59:20Z) - SparK: Query-Aware Unstructured Sparsity with Recoverable KV Cache Channel Pruning [33.149133156465474]
大規模言語モデルにおける長文推論は、KVキャッシュのボトルネックによってますます制限される。
チャネルレベルでKVをプルーニングすることで、非構造化空間を適用できる訓練不要なプラグアンドプレイ手法であるSPARKを提案する。
SPARKはチャネルレベルの冗長性を低減し、同じメモリ予算内で長いシーケンスの処理を可能にする。
論文 参考訳(メタデータ) (2025-08-21T03:48:28Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - RocketKV: Accelerating Long-Context LLM Inference via Two-Stage KV Cache Compression [25.190765258589707]
トレーニング不要なKVキャッシュ圧縮戦略であるRocketKVについて述べる。
第1段階では、入力シーケンストークンに対して粗粒永久KVキャッシュ消去を行う。
第2段階では、微粒のトップkスパースアテンションを行うために、ハイブリッドスパースアテンション方式を採用する。
論文 参考訳(メタデータ) (2025-02-19T19:12:46Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。