論文の概要: ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration
- arxiv url: http://arxiv.org/abs/2505.24357v1
- Date: Fri, 30 May 2025 08:49:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.85929
- Title: ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration
- Title(参考訳): ReCalKV: ヘッドリオーダとオフライン校正による低ランクKVキャッシュ圧縮
- Authors: Xianglong Yan, Zhiteng Li, Tianao Zhang, Linghe Kong, Yulun Zhang, Xiaokang Yang,
- Abstract要約: 大きな言語モデル(LLM)は優れたパフォーマンスを実現しているが、キーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって、長期コンテキスト推論の能力は制限されることが多い。
最近の方法では,KVキャッシュの隠れ次元の低減が検討されているが,プロジェクション層を通じての追加計算を導入する場合や,高い圧縮比下での大幅な性能劣化に悩まされる場合が多い。
本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
- 参考スコア(独自算出の注目度): 81.81027217759433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved remarkable performance, yet their capability on long-context reasoning is often constrained by the excessive memory required to store the Key-Value (KV) cache. This makes KV cache compression an essential step toward enabling efficient long-context reasoning. Recent methods have explored reducing the hidden dimensions of the KV cache, but many introduce additional computation through projection layers or suffer from significant performance degradation under high compression ratios. To address these challenges, we propose ReCalKV, a post-training KV cache compression method that reduces the hidden dimensions of the KV cache. We develop distinct compression strategies for Keys and Values based on their different roles and varying importance in the attention mechanism. For Keys, we propose Head-wise Similarity-aware Reordering (HSR), which clusters similar heads and applies grouped SVD to the key projection matrix, reducing additional computation while preserving accuracy. For Values, we propose Offline Calibration and Matrix Fusion (OCMF) to preserve accuracy without extra computational overhead. Experiments show that ReCalKV outperforms existing low-rank compression methods, achieving high compression ratios with minimal performance loss. Code is available at: https://github.com/XIANGLONGYAN/ReCalKV.
- Abstract(参考訳): 大きな言語モデル(LLM)は優れたパフォーマンスを達成しているが、キーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって、長期コンテキスト推論の能力は制限されることが多い。
これにより、KVキャッシュ圧縮は、効率的な長文推論を可能にするための重要なステップとなる。
最近の方法では,KVキャッシュの隠れ次元の低減が検討されているが,プロジェクション層を通じての追加計算を導入する場合や,高い圧縮比下での大幅な性能劣化に悩まされる場合が多い。
これらの課題に対処するために,KVキャッシュの隠蔽次元を低減する後学習KVキャッシュ圧縮手法であるReCalKVを提案する。
キーとバリューの異なる役割とアテンションメカニズムの異なる重要性に基づいて、キーとバリューの異なる圧縮戦略を開発する。
Keysでは、類似した頭部をクラスタリングし、鍵投影行列にグループ化SVDを適用するHSR(Head-wise similarity-aware Reordering)を提案する。
本稿では,OCMF(Offline Calibration and Matrix Fusion)を提案する。
実験により、ReCalKVは既存の低ランク圧縮法よりも優れており、性能損失を最小限に抑えた高い圧縮比を実現している。
コードは、https://github.com/XIANGLONGYAN/ReCalKVで入手できる。
関連論文リスト
- DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。
提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - CSKV: Training-Efficient Channel Shrinking for KV Cache in Long-Context Scenarios [13.144156413032896]
KVキャッシュ圧縮のための訓練効率の高いチャネルシンキング技術であるCSKVを紹介する。
CSKVは、モデル長文機能を維持しながら、KVキャッシュのメモリオーバーヘッドを80%削減できることを示す。
我々の手法は量子化とシームレスに組み合わせることでメモリオーバーヘッドをさらに低減し、最大95%の圧縮比を達成することができる。
論文 参考訳(メタデータ) (2024-09-16T17:36:50Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。