論文の概要: KVzap: Fast, Adaptive, and Faithful KV Cache Pruning
- arxiv url: http://arxiv.org/abs/2601.07891v1
- Date: Mon, 12 Jan 2026 08:27:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.898056
- Title: KVzap: Fast, Adaptive, and Faithful KV Cache Pruning
- Title(参考訳): KVzap: 高速で、適応的で、忠実なKVキャッシュプルーニング
- Authors: Simon Jegou, Maximilian Jeblick,
- Abstract要約: 我々は、KVzipの高速な入力適応近似であるKVzapを導入し、プリフィルとデコードの両方で機能する。
KVzapは、無視できる精度の損失を伴うKVキャッシュ圧縮を2ドル~4ドルで達成し、KVpressのリーダーボード上で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 1.3320917259299652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Growing context lengths in transformer-based language models have made the key-value (KV) cache a critical inference bottleneck. While many KV cache pruning methods have been proposed, they have not yet been adopted in major inference engines due to speed--accuracy trade-offs. We introduce KVzap, a fast, input-adaptive approximation of KVzip that works in both prefilling and decoding. On Qwen3-8B, Llama-3.1-8B-Instruct, and Qwen3-32B across long-context and reasoning tasks, KVzap achieves $2$--$4\times$ KV cache compression with negligible accuracy loss and achieves state-of-the-art performance on the KVpress leaderboard. Code and models are available at https://github.com/NVIDIA/kvpress.
- Abstract(参考訳): トランスフォーマーベースの言語モデルにおけるコンテキスト長の増大は、キー値(KV)キャッシュを重要な推論ボトルネックにした。
多くのKVキャッシュプルーニング手法が提案されているが、速度-精度トレードオフのため、主要な推論エンジンでは採用されていない。
我々は、KVzipの高速な入力適応近似であるKVzapを導入し、プリフィルとデコードの両方で機能する。
Qwen3-8B、Llama-3.1-8B-Instruct、Qwen3-32Bの長いコンテキストと推論タスクにおいて、KVzapは2-$4\times$ KVキャッシュ圧縮を無視できる精度の損失で達成し、KVpressのリーダーボード上で最先端のパフォーマンスを達成する。
コードとモデルはhttps://github.com/NVIDIA/kvpress.comで入手できる。
関連論文リスト
- Learning What to Write: Write-Gated KV for Efficient Long-Context Inference [10.915483460983411]
我々は,KVキャッシュ管理を3つのプリミティブの因果系として定式化した。
我々は、キャッシュに入る前にトークンユーティリティを予測する軽量メカニズムであるWrite-Gated KVを介してKVAdmissionをインスタンス化する。
論文 参考訳(メタデータ) (2025-12-19T11:08:58Z) - KV Cache Transform Coding for Compact Storage in LLM Inference [2.20003167536462]
KVTCは、KVキャッシュをコンパクトなオンGPUとオフGPUストレージに圧縮する軽量トランスフォーメーションコーダである。
KVキャッシュの冗長性を活用することで、KVTCは推論と長文の精度を維持しながら最大20$times$圧縮を達成する。
我々は、AIME25、LiveCodeBench、GSM8K、MMLU、Qasper、RULER、MATH-500を含むベンチマークで、Llama 3、Mistral NeMo、R1-Qwen 2.5モデルでKVTCをテストする。
論文 参考訳(メタデータ) (2025-11-03T18:20:35Z) - R-KV: Redundancy-aware KV Cache Compression for Reasoning Models [77.84539432982307]
共振モデル(R-KV)のための冗長性を考慮したKVキャッシュ圧縮を提案する。
R-KVはKVキャッシュの10%しか使用せず、完全なKVキャッシュ性能のほぼ100%を保っている。
驚くべきことに、R-KVは完全なKVキャッシュ性能の105%を達成し、KVキャッシュの16%を達成している。
論文 参考訳(メタデータ) (2025-05-30T02:03:24Z) - KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction [37.97434606840326]
トランスフォーマーベースの大規模言語モデル(LLM)は、推論中にキー値(KV)ペアとしてキャッシュコンテキストを持つ。
コンテキストの長さが大きくなると、KVキャッシュのサイズが拡大し、メモリオーバーヘッドが大きくなり、注意の遅延が増大する。
本稿では,クエリに依存しないKVキャッシュ消去手法であるKVzipを紹介する。
論文 参考訳(メタデータ) (2025-05-29T13:05:47Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - DiffKV: Differentiated Memory Management for Large Language Models with Parallel KV Compaction [33.936381781692994]
DiffKVは効率的なKVキャッシュ圧縮のための新しいフレームワークである。
KVキャッシュにおける3つのレベルの分化を利用する。
KVキャッシュを2.7Times$から5.7times$に圧縮できる。
論文 参考訳(メタデータ) (2024-12-04T08:51:23Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。