論文の概要: Training Transformers for KV Cache Compressibility
- arxiv url: http://arxiv.org/abs/2605.05971v1
- Date: Thu, 07 May 2026 10:17:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.692471
- Title: Training Transformers for KV Cache Compressibility
- Title(参考訳): KVキャッシュ圧縮のためのトレーニングトランス
- Authors: Yoav Gelberg, Yam Eitan, Michael Bronstein, Yarin Gal, Haggai Maron,
- Abstract要約: KV圧縮性は文脈のみでなく,学習した表現の特性であることを示す。
そこで本研究では,圧縮可能な表現の出現を動機づける,継続した事前訓練手順であるKV-Compression Aware Training (KV-CAT)を提案する。
- 参考スコア(独自算出の注目度): 41.06560761854043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context language modeling is increasingly constrained by the Key-Value (KV) cache, whose memory and decode-time access costs scale linearly with the prefix length. This bottleneck has motivated a range of context-compression methods, from token-level summarization to recent optimization-based KV compression methods. These post-hoc methods operate on the KV cache of a fixed pretrained model, so their effectiveness is fundamentally limited by how well the model's internal representations can be compressed. In this work, we formalize the notion of KV compressibility and show that it is a property of the learned representations, rather than of the context alone. We prove that almost any sequence-to-vector function admits both highly compressible and inherently non-compressible transformer implementations, highlighting the need to guide transformers toward compressible representations during training. Motivated by this, we propose KV-Compression Aware Training (KV-CAT), a continued pretraining procedure that incentivizes the emergence of compressible representations. We introduce a train-time KV sparsification policy that masks KV slots during training. This forces the model to use fewer KV slots and encourages it to learn representations amenable to post-hoc compression. Empirically, we show that KV-CAT improves the quality-budget tradeoff of downstream compression methods across retrieval, long-context question answering, and perplexity-based evaluation of compressed-prefix continuation.
- Abstract(参考訳): 長いコンテキスト言語モデリングは、メモリとデコード時間アクセスコストがプレフィックス長と線形にスケールするキーバリュー(KV)キャッシュによって、ますます制限される。
このボトルネックは、トークンレベルの要約から最近の最適化ベースのKV圧縮方法まで、様々なコンテキスト圧縮手法を動機付けている。
これらのポストホック法は、固定事前訓練されたモデルのKVキャッシュで動作するため、モデルの内部表現の圧縮方法によって、その効果は基本的に制限される。
本研究では,KV圧縮性の概念を形式化し,文脈のみではなく,学習した表現の特性であることを示す。
ほぼすべてのシークエンス・ツー・ベクター関数は、高度に圧縮可能かつ本質的に圧縮不能なトランスフォーマーの実装を許容しており、トレーニング中にトランスフォーマーを圧縮可能表現へ導く必要性を強調している。
そこで本研究では,圧縮可能な表現の出現を動機づける,継続した事前訓練手順であるKV-Compression Aware Training (KV-CAT)を提案する。
トレーニング中にKVスロットをマスクする列車時KVスペーシフィケーションポリシーを導入する。
これにより、モデルはKVスロットを減らし、ポストホック圧縮に適した表現を学習するよう促す。
実験により、KV-CATは、検索、長文質問応答、圧縮プレフィックス継続のパープレキシティに基づく評価において、下流圧縮手法の品質・予算のトレードオフを改善することを示した。
関連論文リスト
- EchoKV: Efficient KV Cache Compression via Similarity-Based Reconstruction [55.026048429595384]
EchoKVは、標準と圧縮された推論間のオンデマンド移行を可能にする柔軟なKVキャッシュ圧縮スキームである。
高速で低コストなトレーニングを可能にする2段階の微調整戦略を導入する。
論文 参考訳(メタデータ) (2026-03-24T07:58:42Z) - One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache [38.49582847975703]
低ランクKVキャッシュ圧縮のための新しいポストトレーニングフレームワークDynaKVを提案する。
我々の手法は既存の最先端圧縮技術より一貫して優れています。
SnapKVと統合した場合、DynaKVはKVキャッシュの6%しか保持せず、LongBenchベンチマークのベースラインパフォーマンスの94%を維持している。
論文 参考訳(メタデータ) (2026-02-03T13:20:36Z) - FAEDKV: Infinite-Window Fourier Transform for Unbiased KV Cache Compression [18.12657364501536]
FAEDKVは、トレーニング不要のKVキャッシュ圧縮フレームワークである。
初期の情報と最近の情報の両方を保存している。
LongBenchベンチマークの実験では、FAEDKVは既存のメソッドよりも最大22%優れていた。
論文 参考訳(メタデータ) (2025-07-26T18:20:25Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - KV-Distill: Nearly Lossless Learnable Context Compression for LLMs [37.0803484148612]
我々は、長いコンテキストKVキャッシュをはるかに短い表現に蒸留するTransformer圧縮フレームワークであるKV-Distillを紹介する。
KV-Distillは、事前訓練されたモデルに対するパラメータ効率の良い適応器として訓練することができる。
ドメイン固有のコンテキストを微調整することで、下流のパフォーマンスを維持しながら、最大99%の長さを削減できる。
論文 参考訳(メタデータ) (2025-03-13T13:15:28Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - CSKV: Training-Efficient Channel Shrinking for KV Cache in Long-Context Scenarios [13.144156413032896]
KVキャッシュ圧縮のための訓練効率の高いチャネルシンキング技術であるCSKVを紹介する。
CSKVは、モデル長文機能を維持しながら、KVキャッシュのメモリオーバーヘッドを80%削減できることを示す。
我々の手法は量子化とシームレスに組み合わせることでメモリオーバーヘッドをさらに低減し、最大95%の圧縮比を達成することができる。
論文 参考訳(メタデータ) (2024-09-16T17:36:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。