論文の概要: EchoKV: Efficient KV Cache Compression via Similarity-Based Reconstruction
- arxiv url: http://arxiv.org/abs/2603.22910v1
- Date: Tue, 24 Mar 2026 07:58:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.369384
- Title: EchoKV: Efficient KV Cache Compression via Similarity-Based Reconstruction
- Title(参考訳): EchoKV:類似性に基づく再構成による効率的なKVキャッシュ圧縮
- Authors: Yixuan Wang, Shiyu Ji, Yijun Liu, Qingfu Zhu, Wanxiang Che,
- Abstract要約: EchoKVは、標準と圧縮された推論間のオンデマンド移行を可能にする柔軟なKVキャッシュ圧縮スキームである。
高速で低コストなトレーニングを可能にする2段階の微調整戦略を導入する。
- 参考スコア(独自算出の注目度): 55.026048429595384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing memory demand of the Key-Value (KV) cache poses a significant bottleneck for Large Language Models (LLMs) in long-context applications. Existing low-rank compression methods often rely on irreversible parameter transformations, sacrificing the flexibility to switch back to full-precision inference when memory is abundant. In this paper, we propose EchoKV, a flexible KV cache compression scheme that enables on-demand transitions between standard and compressed inference. Unlike traditional compression-decompression paradigms, EchoKV utilizes a lightweight network to reconstruct the residual KV components from a partial subset, leveraging intrinsic inter-layer and intra-layer similarities among attention heads. We further introduce a two-stage fine-tuning strategy that allows for rapid, low-cost training (e.g., ~1 A100 GPU-hour for a 7B model). Experimental results on LongBench and RULER demonstrate that EchoKV consistently outperforms existing methods across various compression ratios while maintaining high throughput for short-context scenarios.
- Abstract(参考訳): キーバリュー(KV)キャッシュのメモリ需要の増加は、長期コンテキストアプリケーションにおいて、LLM(Large Language Models)にとって重大なボトルネックとなる。
既存の低ランク圧縮法は、しばしば不可逆的なパラメータ変換に依存しており、メモリが豊富であれば、完全な推論に切り替える柔軟性を犠牲にしている。
本稿では,標準と圧縮された推論のオンデマンド移行を可能にする,フレキシブルなKVキャッシュ圧縮方式であるEchoKVを提案する。
従来の圧縮圧縮のパラダイムとは異なり、EchoKVは軽量ネットワークを使用して部分部分部分集合から残留KV成分を再構成し、固有の層間および層間類似性を利用する。
さらに、高速で低コストなトレーニング(例えば、7Bモデルでは1 A100 GPU-hour)を可能にする2段階の微調整戦略を導入する。
LongBench と RULER の実験結果から,EchoKV は短いコンテキストシナリオにおいて高いスループットを維持しつつ,様々な圧縮比で既存の手法より一貫して優れていたことが示されている。
関連論文リスト
- DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache [38.49582847975703]
低ランクKVキャッシュ圧縮のための新しいポストトレーニングフレームワークDynaKVを提案する。
我々の手法は既存の最先端圧縮技術より一貫して優れています。
SnapKVと統合した場合、DynaKVはKVキャッシュの6%しか保持せず、LongBenchベンチマークのベースラインパフォーマンスの94%を維持している。
論文 参考訳(メタデータ) (2026-02-03T13:20:36Z) - CommonKV: Compressing KV Cache with Cross-layer Parameter Sharing [54.34080239841088]
CommonKVは、隣接パラメータ共有による層間KVキャッシュ圧縮のトレーニング不要な方法である。
提案手法は,様々な圧縮比で既存の低ランクおよびクロスレイヤーの手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-08-22T06:55:45Z) - FAEDKV: Infinite-Window Fourier Transform for Unbiased KV Cache Compression [18.12657364501536]
FAEDKVは、トレーニング不要のKVキャッシュ圧縮フレームワークである。
初期の情報と最近の情報の両方を保存している。
LongBenchベンチマークの実験では、FAEDKVは既存のメソッドよりも最大22%優れていた。
論文 参考訳(メタデータ) (2025-07-26T18:20:25Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - FlowKV: Enhancing Multi-Turn Conversational Coherence in LLMs via Isolated Key-Value Cache Management [48.904743679691414]
FlowKVはKVキャッシュ管理のための新しいマルチターン分離機構である。
蓄積された圧縮KVキャッシュを過去のターンから保存する。
古い文脈の再圧縮を防ぎ、破滅的な忘れを和らげる。
論文 参考訳(メタデータ) (2025-05-21T10:20:46Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。