論文の概要: SplitZip: Ultra Fast Lossless KV Compression for Disaggregated LLM Serving
- arxiv url: http://arxiv.org/abs/2605.01708v1
- Date: Sun, 03 May 2026 04:22:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.896509
- Title: SplitZip: Ultra Fast Lossless KV Compression for Disaggregated LLM Serving
- Title(参考訳): SplitZip:超高速でロスレスなKV圧縮技術
- Authors: Yipin Guo, Siddharth Joshi,
- Abstract要約: SplitZipは、KV-cache転送のためのGPUフレンドリーな圧縮機である。
KV活性化の浮動小数点指数の冗長性を利用する。
実際のBF16アクティベーションテンソルでは、SplitZipは613.3GB/s圧縮スループットと2181.8GB/s圧縮スループットを達成する。
- 参考スコア(独自算出の注目度): 4.543073806867322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contemporary systems serving large language models (LLMs) have adopted prefill-decode disaggregation to better load-balance between the compute-bound prefill phase and the memory-bound decode phase. Under this design, prefill workers generate a KV cache that must be transferred to decode workers before token generation can begin. With these workers residing on different physical systems, this transfer becomes a significant bottleneck to serving LLMs at scale. This bottleneck gets exacerbated for long-input and agentic workloads, which typically require long inputs. Existing lossless codecs are not well suited to this setting as they primarily target offline weight compression, rely on CPU-side, or use variable-length coding that decompresses fast but compresses too slowly for online use. SplitZip is a GPU-friendly lossless compressor for KV-cache transfer. It exploits redundancy in floating-point exponents of KV activations, encoding the most frequent exponent values with fixed-length codes, and encoding (position, value) pairs and value of rare exponents in an escape stream. An offline calibrated top-16 exponent codebook enables online encoding, while the regular dense path and sparse escape correction make both encoding and decoding efficient on GPUs. On real BF16 activation tensors, SplitZip achieves 613.3 GB/s compression throughput and 2181.8 GB/s decompression throughput, substantially outperforming prior lossless compressors on the latency-critical codec path. End-to-end transfer experiments show up to 1.32$\times$ speedup for BF16 KV-cache transfer, 1.30$\times$ speedup for TTFT and 1.23$\times$ increase on Request Throughput.
- Abstract(参考訳): 大規模言語モデル(LLM)を提供する現代システムでは、計算バウンドプリフィルフェーズとメモリバウンドデコードフェーズとの負荷バランスを改善するために、プリフィル・デコード・デアグリゲーションを採用している。
この設計の下で、プリフィルワーカはトークン生成を開始する前にデコードワーカに転送する必要があるKVキャッシュを生成する。
これらの労働者は、異なる物理システムに居住しているため、この移行はLLMを大規模に提供するための重要なボトルネックとなる。
このボトルネックは、通常長いインプットを必要とする長時間のインプットとエージェントのワークロードに対して悪化します。
既存のロスレスコーデックは、主にオフラインの重み圧縮をターゲットとし、CPU側に依存したり、高速で圧縮できる可変長の符号化を使用するため、この設定には適していない。
SplitZipは、KV-cache転送用のGPUフレンドリーなロスレス圧縮機である。
KVアクティベーションの浮動小数点指数の冗長性を利用し、固定長符号で最も頻繁な指数値を符号化し、エスケープストリームで希少指数のペアと値の符号化(配置、値)を行う。
オフラインで校正されたトップ16指数コードブックは、オンラインエンコーディングを可能にし、正規の高密度パスとスパースエスケープ補正は、GPU上でのエンコーディングとデコードの両方を効率的にする。
実際のBF16アクティベーションテンソルでは、SplitZipは613.3GB/sの圧縮スループットと2181.8GB/sの減圧スループットを達成し、レイテンシクリティカルなコーデックパスでの損失なし圧縮よりも大幅に向上した。
エンドツーエンドの転送実験では、BF16 KV-cache転送が1.32$\times$スピードアップ、TTFTが1.30$\times$スピードアップ、Request Throughputが1.23$\times$アップとなる。
関連論文リスト
- EchoKV: Efficient KV Cache Compression via Similarity-Based Reconstruction [55.026048429595384]
EchoKVは、標準と圧縮された推論間のオンデマンド移行を可能にする柔軟なKVキャッシュ圧縮スキームである。
高速で低コストなトレーニングを可能にする2段階の微調整戦略を導入する。
論文 参考訳(メタデータ) (2026-03-24T07:58:42Z) - ZipServ: Fast and Memory-Efficient LLM Inference with Hardware-Aware Lossless Compression [19.538318240352424]
ロスレスモデル圧縮は、ビットエクササイズ大言語モデル(LLM)サービスにおけるメモリと帯域幅のボトルネックを軽減するために、非常に有望である。
既存のアプローチは、GPUアーキテクチャと基本的な設計ミスマッチのため、かなり推論が遅くなることが多い。
我々は、効率的なLLM推論のために共同設計されたロスレス圧縮フレームワークZipServを提案する。
論文 参考訳(メタデータ) (2026-03-18T07:21:21Z) - ProGIC: Progressive and Lightweight Generative Image Compression with Residual Vector Quantization [59.481950697968706]
残留ベクトル量子化(RVQ)に基づくコンパクトなプログレッシブ生成画像圧縮(ProGIC)を提案する。
RVQでは、ベクトル量子化器の列がステージごとに残余を符号化し、それぞれが独自のコードブックを持つ。
これを奥行き分離可能な畳み込みと小さな注意ブロックに基づく軽量なバックボーンと組み合わせることで、GPUとCPUのみのデバイスに実用的なデプロイを可能にします。
論文 参考訳(メタデータ) (2026-03-03T11:47:05Z) - Efficient Remote Prefix Fetching with GPU-native Media ASICs [15.991394335072547]
リモートKVキャッシュの再利用は、リモートストレージから同じコンテキストのKVキャッシュを取得する。
近年の研究では、KVキャッシュを圧縮形式で送信することでこの問題に対処している。
我々は,GPUネイティブなビデオコーデックを活用する,効率的で広くデプロイ可能なリモートKVキャッシュ再利用ソリューションを提案する。
論文 参考訳(メタデータ) (2026-02-10T12:29:02Z) - DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - Joint Encoding of KV-Cache Blocks for Scalable LLM Serving [3.3230675313521716]
既存のKV-cache圧縮手法は剛性に依存し、テンソルレイアウトを乱したり、特別な計算を必要とする。
KV-cacheブロックの連成符号化を提案し、要求と入力チャンクに類似したブロックを融合して共有表現を生成する。
これにより、KV-cacheメモリのボトルネックが軽減され、特別なハードウェアを使わずに高コンカレンシー機能をサポートする。
論文 参考訳(メタデータ) (2026-01-06T14:50:58Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - FastKV: KV Cache Compression for Fast Long-Context Processing with Token-Selective Propagation [14.33163594016033]
大規模言語モデル(LLM)は、かなりのプリフィル計算とキー値(KV)キャッシュを必要とする。
KVキャッシュをプレフィルアクセラレーションで圧縮する最近の作業は、このコストを低減しているが、誤ってプリフィル計算の削減をデコードKV予算に結び付ける。
FastKVはKVキャッシュ圧縮フレームワークで、プリフィルとデコードの両方の遅延を減らし、後のレイヤでのトークンの重要性の安定化を活用する。
論文 参考訳(メタデータ) (2025-02-03T05:25:09Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。