論文の概要: SplitZip: Ultra Fast Lossless KV Compression for Disaggregated LLM Serving
- arxiv url: http://arxiv.org/abs/2605.01708v2
- Date: Fri, 08 May 2026 22:34:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 19:24:01.143765
- Title: SplitZip: Ultra Fast Lossless KV Compression for Disaggregated LLM Serving
- Title(参考訳): SplitZip:超高速でロスレスなKV圧縮技術
- Authors: Yipin Guo, Siddharth Joshi,
- Abstract要約: SplitZipは、KVキャッシュ転送のためのGPUフレンドリーな圧縮機である。
SplitZipはKVアクティベーションの浮動小数点指数の冗長性を利用する。
オフラインのトップ16指数コードブックは、オンラインヒストグラムを排除します。
- 参考スコア(独自算出の注目度): 4.543073806867322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contemporary systems serving large language models (LLMs) have adopted prefill-decode disaggregation to better load-balance between the compute-bound prefill phase and the memory-bound decode phase. Under this design, prefill workers generate a KV cache that must be transferred to decode workers before token generation can begin. With these workers residing on different physical systems, this transfer becomes a significant bottleneck to serving LLMs at scale. This bottleneck gets exacerbated for long-input and agentic workloads. Existing lossless codecs are not suited to this setting as they primarily target offline weight compression, run on the CPU, or use variable-length coding whose decompression is fast but compression is too slow to keep up with KV production during prefill. We introduce SplitZip, a GPU-friendly lossless compressor for KV cache transfer that preserves KV tensors bitwise and integrates into existing serving frameworks without changes to model execution. SplitZip exploits redundancy in floating-point exponents of KV activations, encoding the most frequent exponent values with fixed-length codes and routing rare exponents through a sparse escape stream of (position, value). An offline calibrated top-16 exponent codebook eliminates online-histogramming, while the regular dense path and sparse escape correction make both encoding and decoding efficient on GPUs. On real BF16 activation tensors, SplitZip achieves $613.3$ GB/s compression throughput and $2181.8$ GB/s decompression throughput, substantially outperforming prior lossless compressors on the latency-critical codec path. End-to-end transfer experiments show up to $1.32\times$ speedup for BF16 KV cache transfer, $1.30\times$ speedup for TTFT, and $1.23\times$ increase on Request Throughput. The same approach extends to FP8 KV caches, providing up to $1.14\times$ compression over native E5M2.
- Abstract(参考訳): 大規模言語モデル(LLM)を提供する現代システムでは、計算バウンドプリフィルフェーズとメモリバウンドデコードフェーズとの負荷バランスを改善するために、プリフィル・デコード・デアグリゲーションを採用している。
この設計の下で、プリフィルワーカはトークン生成を開始する前にデコードワーカに転送する必要があるKVキャッシュを生成する。
これらの労働者は、異なる物理システムに居住しているため、この移行はLLMを大規模に提供するための重要なボトルネックとなる。
このボトルネックは、長時間のインプットとエージェントのワークロードで悪化します。
既存のロスレスコーデックは、主にオフライン重量圧縮、CPU上での実行、あるいは減圧が速いが圧縮が遅い可変長符号を使用するため、この設定には適していない。
我々は、KVテンソルをビット単位で保存し、モデル実行を変更することなく既存のサービスフレームワークに統合するKVキャッシュ転送用のGPUフレンドリーなロスレス圧縮機であるSplitZipを紹介する。
SplitZipはKVアクティベーションの浮動小数点指数の冗長性を利用して、固定長符号で最も頻繁な指数値を符号化し、スパースエスケープストリーム(位置、値)を介して希少指数をルーティングする。
オフラインで校正されたトップ16指数コードブックは、オンラインヒストグラムを排除し、正規の高密度パスとスパースエスケープ補正は、GPU上での符号化と復号の両方を効率的にする。
実際のBF16アクティベーションテンソルでは、SplitZipは613.3$ GB/sの圧縮スループットと2181.8$ GB/sの圧縮スループットを達成し、遅延クリティカルなコーデックパスでの損失のない圧縮よりも大幅に向上した。
エンドツーエンドの転送実験では、BF16 KVのキャッシュ転送のスピードアップが1.32\times$、TTFTのスピードアップが1.30\times$、Request Throughputが1.23\times$上昇する。
同じアプローチはFP8 KVキャッシュにまで拡張され、ネイティブのE5M2に対して最大1.14\times$圧縮を提供する。
関連論文リスト
- EchoKV: Efficient KV Cache Compression via Similarity-Based Reconstruction [55.026048429595384]
EchoKVは、標準と圧縮された推論間のオンデマンド移行を可能にする柔軟なKVキャッシュ圧縮スキームである。
高速で低コストなトレーニングを可能にする2段階の微調整戦略を導入する。
論文 参考訳(メタデータ) (2026-03-24T07:58:42Z) - ZipServ: Fast and Memory-Efficient LLM Inference with Hardware-Aware Lossless Compression [19.538318240352424]
ロスレスモデル圧縮は、ビットエクササイズ大言語モデル(LLM)サービスにおけるメモリと帯域幅のボトルネックを軽減するために、非常に有望である。
既存のアプローチは、GPUアーキテクチャと基本的な設計ミスマッチのため、かなり推論が遅くなることが多い。
我々は、効率的なLLM推論のために共同設計されたロスレス圧縮フレームワークZipServを提案する。
論文 参考訳(メタデータ) (2026-03-18T07:21:21Z) - ProGIC: Progressive and Lightweight Generative Image Compression with Residual Vector Quantization [59.481950697968706]
残留ベクトル量子化(RVQ)に基づくコンパクトなプログレッシブ生成画像圧縮(ProGIC)を提案する。
RVQでは、ベクトル量子化器の列がステージごとに残余を符号化し、それぞれが独自のコードブックを持つ。
これを奥行き分離可能な畳み込みと小さな注意ブロックに基づく軽量なバックボーンと組み合わせることで、GPUとCPUのみのデバイスに実用的なデプロイを可能にします。
論文 参考訳(メタデータ) (2026-03-03T11:47:05Z) - Efficient Remote Prefix Fetching with GPU-native Media ASICs [15.991394335072547]
リモートKVキャッシュの再利用は、リモートストレージから同じコンテキストのKVキャッシュを取得する。
近年の研究では、KVキャッシュを圧縮形式で送信することでこの問題に対処している。
我々は,GPUネイティブなビデオコーデックを活用する,効率的で広くデプロイ可能なリモートKVキャッシュ再利用ソリューションを提案する。
論文 参考訳(メタデータ) (2026-02-10T12:29:02Z) - DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - Joint Encoding of KV-Cache Blocks for Scalable LLM Serving [3.3230675313521716]
既存のKV-cache圧縮手法は剛性に依存し、テンソルレイアウトを乱したり、特別な計算を必要とする。
KV-cacheブロックの連成符号化を提案し、要求と入力チャンクに類似したブロックを融合して共有表現を生成する。
これにより、KV-cacheメモリのボトルネックが軽減され、特別なハードウェアを使わずに高コンカレンシー機能をサポートする。
論文 参考訳(メタデータ) (2026-01-06T14:50:58Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - FastKV: KV Cache Compression for Fast Long-Context Processing with Token-Selective Propagation [14.33163594016033]
大規模言語モデル(LLM)は、かなりのプリフィル計算とキー値(KV)キャッシュを必要とする。
KVキャッシュをプレフィルアクセラレーションで圧縮する最近の作業は、このコストを低減しているが、誤ってプリフィル計算の削減をデコードKV予算に結び付ける。
FastKVはKVキャッシュ圧縮フレームワークで、プリフィルとデコードの両方の遅延を減らし、後のレイヤでのトークンの重要性の安定化を活用する。
論文 参考訳(メタデータ) (2025-02-03T05:25:09Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。