論文の概要: ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration
- arxiv url: http://arxiv.org/abs/2505.24357v3
- Date: Sat, 27 Sep 2025 03:37:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:09.005148
- Title: ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration
- Title(参考訳): ReCalKV: ヘッドリオーダとオフライン校正による低ランクKVキャッシュ圧縮
- Authors: Xianglong Yan, Zhiteng Li, Tianao Zhang, Haotong Qin, Linghe Kong, Yulun Zhang, Xiaokang Yang,
- Abstract要約: ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
- 参考スコア(独自算出の注目度): 69.57122277845293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable performance, but their long-context reasoning remains constrained by the excessive memory required for the Key-Value (KV) cache. This makes KV cache compression a critical step toward efficient long-context inference. Recent methods have explored low-rank techniques to reduce the hidden size of the KV cache. However, they neglect the distinct roles and varying importance of Keys and Values, leading to significant performance drops under high compression. To address this, we propose ReCalKV, a post-training low-rank KV cache compression approach with tailored strategies for Keys and Values. For Keys, we propose Head-wise Similarity aware Reordering (HSR), which clusters structurally similar heads into groups, enabling more accurate low-rank approximation via grouped SVD. For Values, we propose Offline Value Calibration (OVC), which efficiently calibrates the value projection matrix using calibration data without training, ensuring an accurate representation of contextual information. Extensive experiments show that ReCalKV consistently outperforms existing low-rank compression methods, achieving high compression ratios with minimal performance loss. The code and models will be available at:https://github.com/XIANGLONGYAN/ReCalKV.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい性能を示しているが、キーバリュー(KV)キャッシュに必要な過剰なメモリによって、長いコンテキストの推論が制限されている。
これにより、KVキャッシュ圧縮は効率的な長文推論への重要なステップとなる。
近年,KVキャッシュの隠蔽サイズを低減するため,低ランク化手法が検討されている。
しかし、彼らはキーとバリューの異なる役割と異なる重要性を無視し、高い圧縮下での大幅なパフォーマンス低下につながった。
そこで本研究では,キーとバリューを最適化した低ランクKVキャッシュ圧縮手法であるReCalKVを提案する。
キーズでは、HSR(Head-wise similarity aware Reordering)を提案し、グループ化SVDによるより正確な低ランク近似を可能にする。
本稿では,オフライン値キャリブレーション(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて効率的に値予測行列を校正し,文脈情報の正確な表現を保証する。
実験の結果、ReCalKVは既存の低ランク圧縮法より一貫して優れており、性能損失を最小限に抑えた高い圧縮比を実現していることがわかった。
コードとモデルは、https://github.com/XIANGLONGYAN/ReCalKV.comで入手できる。
関連論文リスト
- KV-CoRE: Benchmarking Data-Dependent Low-Rank Compressibility of KV-Caches in LLMs [28.06342293292956]
大規模な言語モデルは、自動回帰復号時に冗長な計算を避けるためにkv-cachesに依存している。
コンテキストの長さが大きくなると、キャッシュの読み書きはGPUメモリの帯域幅を急速に飽和させる。
最近の研究はKV-cache圧縮を探求しているが、ほとんどのアプローチはkv-cachesのデータ依存性を無視している。
論文 参考訳(メタデータ) (2026-02-05T17:41:57Z) - KQ-SVD: Compressing the KV Cache with Provable Guarantees on Attention Fidelity [6.542188603141656]
キーバリューキャッシュは、大きな言語モデルの効率の中心である。
シーケンスの長さとバッチサイズが大きくなると、キャッシュは大きなメモリボトルネックとなる。
我々は,注目行列の最適低ランク分解を直接行う,単純で効率的なKQ-SVDを提案する。
論文 参考訳(メタデータ) (2025-12-05T17:51:10Z) - Value-Guided KV Compression for LLMs via Approximated CUR Decomposition [24.262712463465665]
CurDKVは、CUR行列分解から計算したレバレッジスコアに基づいてキーと値を選択する、新しい、値中心のKV圧縮手法である。
我々のアプローチは、注意出力$softmax(QKT)V$の支配的部分空間を近似し、保持されたトークンがモデルの予測挙動を最善に維持することを保証する。
論文 参考訳(メタデータ) (2025-09-18T15:04:06Z) - CommonKV: Compressing KV Cache with Cross-layer Parameter Sharing [54.34080239841088]
CommonKVは、隣接パラメータ共有による層間KVキャッシュ圧縮のトレーニング不要な方法である。
提案手法は,様々な圧縮比で既存の低ランクおよびクロスレイヤーの手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-08-22T06:55:45Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。
提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [61.412894960600205]
大きな言語モデル(LLM)は、長いテキストを処理する際に大きなGPUメモリを必要とする。
ChunkKVは、セマンティックチャンクを基本的な圧縮単位として扱うことで、KVキャッシュ圧縮を再定義する。
結果: ChunkKVは最先端の手法を最大8.7%精度で上回る。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - MatryoshkaKV: Adaptive KV Compression via Trainable Orthogonal Projection [14.073722038551125]
KVキャッシュは、大規模言語モデルの推論におけるデファクト技術となっている。
本稿では,低ランクな投影行列を用いて,キャッシュ特性を次元を小さくした空間に変換する。
提案手法は, 平均KVキャッシュ圧縮率60%で90%以上の性能を維持することができる。
論文 参考訳(メタデータ) (2024-10-16T08:34:51Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - CSKV: Training-Efficient Channel Shrinking for KV Cache in Long-Context Scenarios [13.144156413032896]
KVキャッシュ圧縮のための訓練効率の高いチャネルシンキング技術であるCSKVを紹介する。
CSKVは、モデル長文機能を維持しながら、KVキャッシュのメモリオーバーヘッドを80%削減できることを示す。
我々の手法は量子化とシームレスに組み合わせることでメモリオーバーヘッドをさらに低減し、最大95%の圧縮比を達成することができる。
論文 参考訳(メタデータ) (2024-09-16T17:36:50Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - A Simple and Effective $L_2$ Norm-Based Strategy for KV Cache Compression [13.981807478365452]
キーバリューキャッシュサイズを減らすための既存のアプローチは、圧縮戦略を学ぶためのモデルを微調整するか、シーケンス長を減らすためにアテンションスコアを利用するかのいずれかである。
キャッシュされたKVペアに対して、$L$とアテンションスコアとの間に明らかな相関関係が見られ、キー埋め込みの低い$L$がデコード時に高いアテンションスコアをもたらす。
実験の結果,この単純な手法により,言語モデリングやニードル・イン・ア・ヘイスタックタスクでは50%,パスキー検索タスクでは90%,精度を損なうことなく,KVキャッシュサイズを50%削減できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T11:35:16Z) - Effectively Compress KV Heads for LLM [28.0801697946958]
キーバリュー(KV)キャッシュを圧縮する新しい手法を提案する。
提案手法は,従来のLLMに匹敵する性能を維持しつつ,KVヘッドの4分の1以上を圧縮することができる。
論文 参考訳(メタデータ) (2024-06-11T08:37:33Z) - ZipCache: Accurate and Efficient KV Cache Quantization with Salient Token Identification [19.985314022860432]
KVキャッシュは、再計算を避けるために、以前のトークンからキーと値の状態を格納する。
KVキャッシュ圧縮はトークンの正当性を識別し、重要でないトークンを積極的に圧縮しながら重要な情報を保存する。
LLMの高精度かつ効率的なKVキャッシュ量子化手法ZipCacheを提案する。
論文 参考訳(メタデータ) (2024-05-23T07:37:16Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。