論文の概要: Self-Pruned Key-Value Attention: Learning When to Write by Predicting Future Utility
- arxiv url: http://arxiv.org/abs/2605.14037v1
- Date: Wed, 13 May 2026 18:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.466905
- Title: Self-Pruned Key-Value Attention: Learning When to Write by Predicting Future Utility
- Title(参考訳): 自己実行型キーバリューアテンション - 将来のユーティリティを予測して書き方を学ぶ
- Authors: Gergely Szilvasy, Manuel Faysse, Maria Lomeli, Matthijs Douze, Pierre-Emmanuel Mazaré, Loïc Cabannes, Wen-tau Yih, Hervé Jégou,
- Abstract要約: 我々は,将来のKVユーティリティを予測するメカニズムであるSP-KV(Self-Pruned Key-Value Attention)を導入する。
軽量ユーティリティ予測器は各キーと値のペアをスコアし、最近のKVは常にローカルウィンドウ経由で利用できるが、古いペアはキャッシュに書き込まれる。
このメカニズムは入力に適応し、典型的にはKVキャッシュサイズを3ドルから10ドルに削減する。
- 参考スコア(独自算出の注目度): 31.124813359673073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Under modern test-time compute and agentic paradigms, language models process ever-longer sequences. Efficient text generation with transformer architectures is increasingly constrained by the Key-Value cache memory footprint and bandwidth. To address this limitation, we introduce Self-Pruned Key-Value Attention (SP-KV), a mechanism designed to predict future KV utility in order to reduce the size of the long-term KV cache. This strategy operates at a fine granularity: a lightweight utility predictor scores each key-value pair, and while recent KVs are always available via a local window, older pairs are written in the cache and used in global attention only if their predicted utility surpasses a given threshold. The LLM and the utility predictor are trained jointly end-to-end exclusively through next-token prediction loss, and are adapted from pretrained LLM checkpoints. Rather than enforcing a fixed compression ratio, SP-KV performs dynamic sparsification: the mechanism adapts to the input and typically reduces the KV cache size by a factor of $3$ to $10\times$, longer sequences often being more compressible. This leads to vast improvements in memory usage and decoding speed, with little to no degradation of validation loss nor performance on a broad set of downstream tasks. Beyond serving as an effective KV-cache reduction mechanism, our method reveals structured layer- and head-specific sparsity patterns that we can use to guide the design of hybrid local-global attention architectures.
- Abstract(参考訳): 現代のテスト時間計算とエージェントのパラダイムの下では、言語モデルはより長いシーケンスを処理する。
トランスフォーマーアーキテクチャによる効率的なテキスト生成は、キーバリューキャッシュメモリのフットプリントと帯域幅によってますます制限されている。
この制限に対処するために、長期KVキャッシュのサイズを減らすために、将来のKVユーティリティを予測するためのメカニズムであるセルフプルキーバリューアテンション(SP-KV)を導入する。
軽量ユーティリティ予測器は各キーと値のペアをスコアし、最近のKVはローカルウィンドウを通じて常に利用できるが、古いペアはキャッシュに書き込まれ、予測ユーティリティが所定のしきい値を超えた場合にのみグローバルな注意で使用される。
LLMと実用予測器は、次のトーケン予測損失によって、共同でエンドツーエンドで訓練され、事前訓練されたLCMチェックポイントから適応される。
メカニズムは入力に適応し、通常、KVキャッシュサイズを3ドルから10ドルまで削減します。
これにより、メモリ使用量やデコード速度が大幅に向上し、幅広い下流タスクにおけるバリデーション損失やパフォーマンスの低下はほとんど、あるいは全く発生しない。
提案手法は,KV-cache削減機構の有効性に加えて,ハイブリッドな局部的注目アーキテクチャの設計を導くために使用可能な,階層構造および頭部特異的な空間パターンを明らかにする。
関連論文リスト
- Make Each Token Count: Towards Improving Long-Context Performance with KV Cache Eviction [65.710271475739]
我々は,各トークンの将来のユーティリティを統一メモリ予算の下で学習する,グローバルな保持に基づくKV消去手法を提案する。
提案手法は,フルキャッシュ推論に適合したり,超えたりしながら,KVメモリを大幅に削減することを示す。
これらの結果から,世界規模で校正されたKV消去は圧縮技術であるだけでなく,長文推論を改善するメカニズムでもあることが示唆された。
論文 参考訳(メタデータ) (2026-05-10T16:47:50Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - A Simple and Effective $L_2$ Norm-Based Strategy for KV Cache Compression [13.981807478365452]
キーバリューキャッシュサイズを減らすための既存のアプローチは、圧縮戦略を学ぶためのモデルを微調整するか、シーケンス長を減らすためにアテンションスコアを利用するかのいずれかである。
キャッシュされたKVペアに対して、$L$とアテンションスコアとの間に明らかな相関関係が見られ、キー埋め込みの低い$L$がデコード時に高いアテンションスコアをもたらす。
実験の結果,この単純な手法により,言語モデリングやニードル・イン・ア・ヘイスタックタスクでは50%,パスキー検索タスクでは90%,精度を損なうことなく,KVキャッシュサイズを50%削減できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T11:35:16Z) - Effectively Compress KV Heads for LLM [28.0801697946958]
キーバリュー(KV)キャッシュを圧縮する新しい手法を提案する。
提案手法は,従来のLLMに匹敵する性能を維持しつつ,KVヘッドの4分の1以上を圧縮することができる。
論文 参考訳(メタデータ) (2024-06-11T08:37:33Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。