Fugu-MT 論文翻訳(概要): On the Limits of Learned Importance Scoring for KV Cache Compression

論文の概要: On the Limits of Learned Importance Scoring for KV Cache Compression

arxiv url: http://arxiv.org/abs/2601.14279v1
Date: Tue, 13 Jan 2026 03:44:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-22 21:27:50.063298
Title: On the Limits of Learned Importance Scoring for KV Cache Compression
Title（参考訳）: KVキャッシュ圧縮における学習重要度スコアリングの限界について
Authors: Brady Steele,
Abstract要約: 投機的重要度予測(SIP)による学習KVキャッシュ圧縮の検討アーキテクチャの洗練にもかかわらず、SIPは単純なベースラインを上回りません。将来的なクエリと生成トラジェクトリ間の円形依存が,この困難に寄与するのではないか,という仮説を立てる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We investigate learned KV cache compression through Speculative Importance Prediction (SIP), a 1.7M parameter non-query-aware scorer that predicts token importance from KV representations alone. Despite architectural sophistication (multi-horizon lookahead, cross-attention), SIP does not outperform simple baselines, including random selection, across 5 seeds, 4 retention levels, and 3 tasks. Key findings: (1) position-based heuristics (keep first 4 + last N tokens) match or exceed learned approaches; (2) prefill attention provides equivalent signal to complex learned scorers; (3) marginal information in KV representations beyond position and prefill attention appears limited for importance prediction. We hypothesize that circular dependence between future queries and generation trajectories contributes to this difficulty.
Abstract（参考訳）: 我々は,KV表現のみからトークンの重要度を予測する1.7Mパラメータ非クエリ対応スコアラであるSpeculative Importance Prediction (SIP)を用いて,学習したKVキャッシュ圧縮について検討した。アーキテクチャの高度化(マルチホライゾン・ルックアヘッド、クロスアテンション)にもかかわらず、SIPは5つの種子、4つの保持レベル、および3つのタスクのランダム選択を含む単純なベースラインを上回りません。主な発見は,(1)位置に基づくヒューリスティックス(最初の4つ+最後のNトークン)が学習アプローチにマッチするか,あるいは超えるか,(2)事前注意が複雑な学習スコアに等価な信号を与えるか,(3)位置を超えるKV表現の限界情報と事前注意が重要予測に限られているか,である。将来的なクエリと生成トラジェクトリ間の円形依存が,この困難に寄与するのではないか,という仮説を立てる。

関連論文リスト

Expected Attention: KV Cache Compression by Estimating Attention from Future Queries Distribution [2.894551569099569]
我々は、KVペアの重要性を予測し、将来のクエリがそれに参加するかを予測する、トレーニング不要な圧縮手法である、textbfExpected Attentionを紹介した。本手法はプリフィルとデコードの両方のフェーズでシームレスに動作し,両シナリオにおいて常に最先端のベースラインよりも優れています。 $textbfweがKVPressをリリースした。KVキャッシュ圧縮メソッドの実装とベンチマークを可能にする包括的なライブラリだ。
論文参考訳（メタデータ） (2025-10-01T08:12:14Z)
OjaKV: Context-Aware Online Low-Rank KV Cache Compression with Oja's Rule [54.37983890753086]
我々は,戦略的ハイブリッドストレージポリシとオンラインサブスペース適応を統合したフレームワークであるOjaKVを紹介する。 OjaKVは、重要かつ最新のトークンをフルランクで保存し、注意のために高忠実なアンカーを維持している。オンライン主成分分析のためのOjaのアルゴリズムを用いて、プロジェクションベースを漸進的に適応させることにより、低ランク圧縮を適用する。
論文参考訳（メタデータ） (2025-09-25T21:42:27Z)
Value-Guided KV Compression for LLMs via Approximated CUR Decomposition [24.262712463465665]
CurDKVは、CUR行列分解から計算したレバレッジスコアに基づいてキーと値を選択する、新しい、値中心のKV圧縮手法である。我々のアプローチは、注意出力$softmax(QKT)V$の支配的部分空間を近似し、保持されたトークンがモデルの予測挙動を最善に維持することを保証する。
論文参考訳（メタデータ） (2025-09-18T15:04:06Z)
Krul: Efficient State Restoration for Multi-turn Conversations with Dynamic Cross-layer KV Sharing [41.792908098945766]
我々は,KVキャッシュの正確かつ効率的な復元を可能にするマルチターンLDM推論システムであるKrulを提案する。 Krulは、レイヤペア間の注目類似性に基づいて圧縮戦略を選択し、再計算ローディングパイプラインを使用してKVキャッシュを復元する。タイム・ツー・ファースト・トケン(TTFT)の1.5x-2.68倍の削減、KVキャッシュストレージの1.33x-2.35倍の削減を実現している。
論文参考訳（メタデータ） (2025-07-10T01:51:17Z)
AttentionPredictor: Temporal Patterns Matter for KV Cache Compression [64.75459635661562]
我々は,KVキャッシュ圧縮とクリティカルトークン識別のための注意パターンを直接予測する,学習に基づく最初の手法であるAttentionPredictorを提案する。 AttentionPredictorは、注意スコアを正確に予測し、無視可能なメモリを消費する統一予測モデルを共有する。注意情報の大半を保持することで、AttentionPredictorは、キャッシュオフロードシナリオで13$times$KVキャッシュ圧縮と5.6$times$スピードアップを達成する。
論文参考訳（メタデータ） (2025-02-06T13:41:46Z)
More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。 KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文参考訳（メタデータ） (2024-12-17T09:20:31Z)
A Simple and Effective $L_2$ Norm-Based Strategy for KV Cache Compression [13.981807478365452]
キーバリューキャッシュサイズを減らすための既存のアプローチは、圧縮戦略を学ぶためのモデルを微調整するか、シーケンス長を減らすためにアテンションスコアを利用するかのいずれかである。キャッシュされたKVペアに対して、$L$とアテンションスコアとの間に明らかな相関関係が見られ、キー埋め込みの低い$L$がデコード時に高いアテンションスコアをもたらす。実験の結果,この単純な手法により,言語モデリングやニードル・イン・ア・ヘイスタックタスクでは50%,パスキー検索タスクでは90%,精度を損なうことなく,KVキャッシュサイズを50%削減できることがわかった。
論文参考訳（メタデータ） (2024-06-17T11:35:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。