論文の概要: KV-CoRE: Benchmarking Data-Dependent Low-Rank Compressibility of KV-Caches in LLMs
- arxiv url: http://arxiv.org/abs/2602.05929v1
- Date: Thu, 05 Feb 2026 17:41:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.092129
- Title: KV-CoRE: Benchmarking Data-Dependent Low-Rank Compressibility of KV-Caches in LLMs
- Title(参考訳): KV-CoRE:LLMにおけるKVキャッシュのデータ依存低ランク圧縮性のベンチマーク
- Authors: Jian Chen, Zhuoran Wang, Jiayu Qin, Ming Li, Meng Wang, Changyou Chen, Yin Chen, Qizhen Weng, Yirui Liu,
- Abstract要約: 大規模な言語モデルは、自動回帰復号時に冗長な計算を避けるためにkv-cachesに依存している。
コンテキストの長さが大きくなると、キャッシュの読み書きはGPUメモリの帯域幅を急速に飽和させる。
最近の研究はKV-cache圧縮を探求しているが、ほとんどのアプローチはkv-cachesのデータ依存性を無視している。
- 参考スコア(独自算出の注目度): 28.06342293292956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models rely on kv-caches to avoid redundant computation during autoregressive decoding, but as context length grows, reading and writing the cache can quickly saturate GPU memory bandwidth. Recent work has explored KV-cache compression, yet most approaches neglect the data-dependent nature of kv-caches and their variation across layers. We introduce KV-CoRE KV-cache Compressibility by Rank Evaluation), an SVD-based method for quantifying the data-dependent low-rank compressibility of kv-caches. KV-CoRE computes the optimal low-rank approximation under the Frobenius norm and, being gradient-free and incremental, enables efficient dataset-level, layer-wise evaluation. Using this method, we analyze multiple models and datasets spanning five English domains and sixteen languages, uncovering systematic patterns that link compressibility to model architecture, training data, and language coverage. As part of this analysis, we employ the Normalized Effective Rank as a metric of compressibility and show that it correlates strongly with performance degradation under compression. Our study establishes a principled evaluation framework and the first large-scale benchmark of kv-cache compressibility in LLMs, offering insights for dynamic, data-aware compression and data-centric model development.
- Abstract(参考訳): 大規模な言語モデルは、自動回帰デコード中の冗長な計算を避けるためにkv-cachに依存するが、コンテキスト長が大きくなるにつれて、キャッシュの読み書きはGPUメモリ帯域幅を急速に飽和させる。
最近の研究では、KV-cache圧縮について検討されているが、ほとんどのアプローチは、kv-cachesのデータ依存の性質と層間の変化を無視している。
KV-CoRE KV-cache Compressibility by Rank Evaluation, SVD-based method for Quantified the data-dependent low-rank compressibility of kv-caches。
KV-CoREはフロベニウスノルムの下で最適な低ランク近似を計算し、勾配のないインクリメンタルであり、効率的なデータセットレベル層評価を可能にする。
この手法を用いて、5つの英語ドメインと16の言語にまたがる複数のモデルとデータセットを分析し、圧縮性をモデルアーキテクチャ、トレーニングデータ、言語カバレッジにリンクする体系的なパターンを明らかにする。
この分析の一環として、圧縮率の指標として正規化有効ランクを用い、圧縮時の性能劣化と強く相関していることを示す。
本研究は, LLMにおける kv-cache 圧縮の原理的評価フレームワークと, 大規模ベンチマークを構築し, 動的・データ認識圧縮とデータ中心モデル開発に関する知見を提供する。
関連論文リスト
- Joint Encoding of KV-Cache Blocks for Scalable LLM Serving [3.3230675313521716]
既存のKV-cache圧縮手法は剛性に依存し、テンソルレイアウトを乱したり、特別な計算を必要とする。
KV-cacheブロックの連成符号化を提案し、要求と入力チャンクに類似したブロックを融合して共有表現を生成する。
これにより、KV-cacheメモリのボトルネックが軽減され、特別なハードウェアを使わずに高コンカレンシー機能をサポートする。
論文 参考訳(メタデータ) (2026-01-06T14:50:58Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - KVShare: An LLM Service System with Efficient and Effective Multi-Tenant KV Cache Reuse [17.301289617498448]
マルチテナントシナリオ下で要求間でKVキャッシュを共有するKVキャッシュ管理モジュールを提案する。
KVShareはTTFTを最大9.39倍に削減し、完全なKV再計算に比べてスループットを1.2倍に向上させる。
KVShareはSOTA法に比べて精度が20.38%向上している。
論文 参考訳(メタデータ) (2025-03-17T16:43:35Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - Can LLMs Maintain Fundamental Abilities under KV Cache Compression? [29.510433427184385]
各種基本言語モデルにおけるKVキャッシュ圧縮の効果を評価するためのベンチマークKVFundaBenchを提案する。
ショットレベルのセマンティックコヒーレンスを維持しつつ、プリフィルとデコードフェーズを処理する新しい圧縮手法ShotKVを提案する。
論文 参考訳(メタデータ) (2025-02-04T02:23:06Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。