論文の概要: One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache
- arxiv url: http://arxiv.org/abs/2603.04411v1
- Date: Tue, 03 Feb 2026 13:20:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.188681
- Title: One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache
- Title(参考訳): One Sizeは、すべてに合わない:KVキャッシュのためのToken-Wise Adaptive Compression
- Authors: Liming Lu, Kaixi Qiu, Jiayu Zhou, Jushi Kai, Haoyan Zhang, Huanyu Wang, Jingwen Leng, Ziwei He, Zhouhan Lin,
- Abstract要約: 低ランクKVキャッシュ圧縮のための新しいポストトレーニングフレームワークDynaKVを提案する。
我々の手法は既存の最先端圧縮技術より一貫して優れています。
SnapKVと統合した場合、DynaKVはKVキャッシュの6%しか保持せず、LongBenchベンチマークのベースラインパフォーマンスの94%を維持している。
- 参考スコア(独自算出の注目度): 38.49582847975703
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the remarkable progress of Large Language Models (LLMs), the escalating memory footprint of the Key-Value (KV) cache remains a critical bottleneck for efficient inference. While dimensionality reduction offers a promising compression avenue, existing approaches typically either necessitate prohibitively expensive pre-training from scratch or suffer from severe performance deterioration under high compression regimes. In this work, we propose DynaKV, a novel post-training framework for low-rank KV cache compression. To the best of our knowledge, DynaKV is the first method to dynamically allocate compression rates to individual tokens according to their semantic meaning, which allows it to achieve better fidelity at aggressive compression ratios. Extensive experiments demonstrate that our method consistently outperforms existing state-of-the-art compression techniques, achieving significant memory reduction while maintaining competitive generation quality. Furthermore, our approach is orthogonal to sequence-level pruning methods. When integrated with SnapKV, DynaKV retains only 6% of the KV cache while maintaining 94% of the baseline performance on the LongBench benchmark.
- Abstract(参考訳): 大きな言語モデル(LLM)の顕著な進歩にもかかわらず、キーバリュー(KV)キャッシュのメモリフットプリントの増大は、効率的な推論にとって重要なボトルネックである。
次元的縮小は有望な圧縮手段を提供するが、既存のアプローチは一般的に、スクラッチから違法に高価な事前訓練を必要とするか、高い圧縮条件下での厳しい性能劣化に悩まされる。
本研究では,低ランクKVキャッシュ圧縮のためのポストトレーニングフレームワークであるDynaKVを提案する。
我々の知る限りでは、DynaKVは個々のトークンに対するセマンティックな意味に応じて動的に圧縮率を割り当てる最初の方法であり、攻撃的な圧縮比においてより忠実性を達成することができる。
実験の結果,提案手法は既存の圧縮技術よりも優れており,競争力のある生成品質を維持しつつ,メモリの大幅な削減を実現していることがわかった。
さらに,本手法はシーケンスレベルのプルーニング法と直交する。
SnapKVと統合した場合、DynaKVはKVキャッシュの6%しか保持せず、LongBenchベンチマークのベースラインパフォーマンスの94%を維持している。
関連論文リスト
- CommonKV: Compressing KV Cache with Cross-layer Parameter Sharing [54.34080239841088]
CommonKVは、隣接パラメータ共有による層間KVキャッシュ圧縮のトレーニング不要な方法である。
提案手法は,様々な圧縮比で既存の低ランクおよびクロスレイヤーの手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-08-22T06:55:45Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - CSKV: Training-Efficient Channel Shrinking for KV Cache in Long-Context Scenarios [13.144156413032896]
KVキャッシュ圧縮のための訓練効率の高いチャネルシンキング技術であるCSKVを紹介する。
CSKVは、モデル長文機能を維持しながら、KVキャッシュのメモリオーバーヘッドを80%削減できることを示す。
我々の手法は量子化とシームレスに組み合わせることでメモリオーバーヘッドをさらに低減し、最大95%の圧縮比を達成することができる。
論文 参考訳(メタデータ) (2024-09-16T17:36:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。