論文の概要: VeriCache: Turning Lossy KV Cache into Lossless LLM Inference
- arxiv url: http://arxiv.org/abs/2605.17613v1
- Date: Sun, 17 May 2026 19:18:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.392743
- Title: VeriCache: Turning Lossy KV Cache into Lossless LLM Inference
- Title(参考訳): VeriCache:失われたKVキャッシュを無意味なLLM推論に変換する
- Authors: Jiayi Yao, Samuel Shen, Kuntai Du, Shaoting Feng, Dongjoo Seo, Rui Zhang, Yuyang Huang, Yuhan Liu, Shan Lu, Junchen Jiang,
- Abstract要約: 私たちは、フルKV-cacheデコードと同じ出力を保証する最初の推論フレームワークであるVeriCacheを紹介します。
VeriCacheはフルKVキャッシュよりも最大4倍高いスループットを実現していることを示す。
- 参考スコア(独自算出の注目度): 24.571166055469508
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The large size of the KV cache has become a major bottleneck for serving LLMs with increasing context lengths. In response, many KV cache compression methods, such as token dropping and quantization, have been proposed. However, almost all of these methods are inherently lossy-despite minimal accuracy degradation for short outputs, their outputs increasingly diverge from full-KV-cache outputs as more tokens are decoded, which leads to catastrophic failures in code generation and tool calling. We present VeriCache, the first inference framework that ensures the same output as full-KV-cache decoding but largely preserves the high decoding throughput of a range of KV cache compression algorithms. VeriCache uses the compressed KV cache to draft tokens, then verifies them against the full KV cache. While it may seem like just speculative decoding, VeriCache requires addressing a key system challenge to work-keeping the full KV cache out of GPU memory and minimizing the overhead of swapping it in for verification. The insight is two-fold: (1) compressed-KV decoding can be parallelized with full-KV swap, because one is HBM-bandwidth-bound and the other is PCIe/network-bound, and (2) the compressed KV cache often produces output similar to the full KV cache, allowing a long drafting horizon to amortize each full-KV swap. VeriCache applies to both long-context decoding and remote prefix caching, supports a broad family of token-dropping and quantization methods through a uniform compressor interface, and composes with traditional speculative decoding. Experimental results show that VeriCache achieves up to 4X higher throughput than full-KV inference while producing identical outputs.
- Abstract(参考訳): KVキャッシュの大規模なサイズは、コンテキスト長が増大するLLMを提供する上で、大きなボトルネックとなっている。
これに対して,トークンドロップや量子化など,多くのKVキャッシュ圧縮手法が提案されている。
しかしながら、これらの手法のほとんどは本質的に損失が多く、短い出力に対して最小限の精度の劣化があるにもかかわらず、その出力はより多くのトークンがデコードされるにつれてフルKVキャッシュ出力から分岐し、コード生成やツール呼び出しの破滅的な失敗につながる。
フルKVキャッシュのデコードと同じ出力を保証する最初の推論フレームワークであるVeriCacheについて述べる。
VeriCacheは圧縮されたKVキャッシュを使用してトークンをドラフトし、完全なKVキャッシュに対して検証する。
単なる投機的デコーディングのように思えるかもしれないが、VeriCacheは、GPUメモリから完全なKVキャッシュを保守し、検証のためにそれを交換するオーバーヘッドを最小限に抑えるために、重要なシステム課題に対処する必要がある。
1)圧縮KVデコードとフルKVスワップを並列化できるのは、一方がHBMバンド幅バウンドであり、もう一方がPCIe/ネットワークバウンドであるからである。
VeriCacheは、ロングコンテキストデコーディングとリモートプレフィックスキャッシュの両方に適用され、均一なコンプレッサーインターフェースを通じてトークンドロップと量子化メソッドの幅広いファミリをサポートし、従来の投機的デコーディングで構成する。
実験結果から,VeriCacheは同一出力を生成しながら,フルKV推論よりも最大4倍高いスループットを実現することがわかった。
関連論文リスト
- RDKV: Rate-Distortion Bit Allocation for Joint Eviction and Quantization of the KV Cache [28.54642982960947]
大規模言語モデル(LLM)は様々なタスクにまたがって高い性能を示すが、長い入力コンテキストでの推論はメモリサイズと帯域幅によってボトルネックとなる。
既存のメソッドは、消去または量子化によってキャッシュを減らすが、通常は2つを分離して扱う。
本稿では、KVキャッシュ圧縮をレート歪み問題とみなし、同じビット割り当て方式の2つの端点の消去と量子化を行う。
論文 参考訳(メタデータ) (2026-05-08T15:15:06Z) - SpeCache: Speculative Key-Value Caching for Efficient Generation of LLMs [44.41154292836592]
我々は,完全なKVキャッシュをオフロードし,各デコードステップでKVペアを動的にフェッチするSpeCacheを提案する。
LongBenchとNeedle-in-a-Haystackベンチマークの実験では、SpeCacheがVRAMの使用を効果的に削減していることが確認されている。
論文 参考訳(メタデータ) (2025-03-20T14:01:56Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - RocketKV: Accelerating Long-Context LLM Inference via Two-Stage KV Cache Compression [25.190765258589707]
トレーニング不要なKVキャッシュ圧縮戦略であるRocketKVについて述べる。
第1段階では、入力シーケンストークンに対して粗粒永久KVキャッシュ消去を行う。
第2段階では、微粒のトップkスパースアテンションを行うために、ハイブリッドスパースアテンション方式を採用する。
論文 参考訳(メタデータ) (2025-02-19T19:12:46Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。