論文の概要: R-KV: Redundancy-aware KV Cache Compression for Training-Free Reasoning Models Acceleration
- arxiv url: http://arxiv.org/abs/2505.24133v2
- Date: Tue, 03 Jun 2025 03:32:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 16:31:03.690976
- Title: R-KV: Redundancy-aware KV Cache Compression for Training-Free Reasoning Models Acceleration
- Title(参考訳): R-KV:訓練不要推論モデル高速化のための冗長性を考慮したKVキャッシュ圧縮
- Authors: Zefan Cai, Wen Xiao, Hanshi Sun, Cheng Luo, Yikai Zhang, Ke Wan, Yucheng Li, Yeyang Zhou, Li-Wen Chang, Jiuxiang Gu, Zhen Dong, Anima Anandkumar, Abedelkadir Asi, Junjie Hu,
- Abstract要約: 共振モデル(R-KV)のための冗長性を考慮したKVキャッシュ圧縮を提案する。
R-KVはKVキャッシュの10%しか使用せず、完全なKVキャッシュ性能のほぼ100%を保っている。
驚くべきことに、R-KVは完全なKVキャッシュ性能の105%を達成し、KVキャッシュの16%を達成している。
- 参考スコア(独自算出の注目度): 77.84539432982307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning models have demonstrated impressive performance in self-reflection and chain-of-thought reasoning. However, they often produce excessively long outputs, leading to prohibitively large key-value (KV) caches during inference. While chain-of-thought inference significantly improves performance on complex reasoning tasks, it can also lead to reasoning failures when deployed with existing KV cache compression approaches. To address this, we propose Redundancy-aware KV Cache Compression for Reasoning models (R-KV), a novel method specifically targeting redundant tokens in reasoning models. Our method preserves nearly 100% of the full KV cache performance using only 10% of the KV cache, substantially outperforming existing KV cache baselines, which reach only 60% of the performance. Remarkably, R-KV even achieves 105% of full KV cache performance with 16% of the KV cache. This KV-cache reduction also leads to a 90% memory saving and a 6.6X throughput over standard chain-of-thought reasoning inference. Experimental results show that R-KV consistently outperforms existing KV cache compression baselines across two mathematical reasoning datasets.
- Abstract(参考訳): 推論モデルは、自己回帰とチェーン・オブ・ソート推論において印象的なパフォーマンスを示している。
しかし、しばしば過度に長い出力を生成し、推論中にキー値(KV)キャッシュを禁止的に大きくする。
チェーンオブ思考推論は複雑な推論タスクのパフォーマンスを著しく向上させるが、既存のKVキャッシュ圧縮アプローチでデプロイされた場合の推論失敗につながる可能性がある。
そこで本稿では,推論モデルにおける冗長トークンを対象とする新しい手法であるR-KV(Randancy-aware KV Cache Compression for Reasoning Model)を提案する。
提案手法は,KVキャッシュの10%しか使用せず,全KVキャッシュ性能の100%近くを保ち,既存のKVキャッシュのベースラインを著しく上回り,性能の60%にしか達しない。
驚くべきことに、R-KVは完全なKVキャッシュ性能の105%を達成し、KVキャッシュの16%を達成している。
このKVキャッシュの削減は、標準チェーンの推論よりも90%のメモリ節約と6.6倍のスループットをもたらす。
実験の結果、R-KVは2つの数学的推論データセットで既存のKVキャッシュ圧縮ベースラインを一貫して上回ることがわかった。
関連論文リスト
- ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)は優れたパフォーマンスを実現しているが、キーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって、長期コンテキスト推論の能力は制限されることが多い。
最近の方法では,KVキャッシュの隠れ次元の低減が検討されているが,プロジェクション層を通じての追加計算を導入する場合や,高い圧縮比下での大幅な性能劣化に悩まされる場合が多い。
本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction [37.489744618357655]
トランスフォーマーベースの大規模言語モデル(LLM)は、推論中にキー値(KV)ペアとしてキャッシュコンテキストを持つ。
コンテキストの長さが大きくなると、KVキャッシュのサイズが拡大し、メモリオーバーヘッドが大きくなり、注意の遅延が増大する。
本稿では,クエリに依存しないKVキャッシュ消去手法であるKVzipを紹介する。
論文 参考訳(メタデータ) (2025-05-29T13:05:47Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。
提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - BaKlaVa -- Budgeted Allocation of KV cache for Long-context Inference [6.222836318380985]
BaKlaVaは、モデル全体で個々のKVキャッシュに対して最適なメモリを割り当てる手法である。
LLaMA-3-8BモデルとQwen2.5-7Bモデルについて検討した。
論文 参考訳(メタデータ) (2025-02-18T04:08:29Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - CSKV: Training-Efficient Channel Shrinking for KV Cache in Long-Context Scenarios [13.144156413032896]
KVキャッシュ圧縮のための訓練効率の高いチャネルシンキング技術であるCSKVを紹介する。
CSKVは、モデル長文機能を維持しながら、KVキャッシュのメモリオーバーヘッドを80%削減できることを示す。
我々の手法は量子化とシームレスに組み合わせることでメモリオーバーヘッドをさらに低減し、最大95%の圧縮比を達成することができる。
論文 参考訳(メタデータ) (2024-09-16T17:36:50Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。