論文の概要: CompilerKV: Risk-Adaptive KV Compression via Offline Experience Compilation
- arxiv url: http://arxiv.org/abs/2602.08686v1
- Date: Mon, 09 Feb 2026 14:07:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.268037
- Title: CompilerKV: Risk-Adaptive KV Compression via Offline Experience Compilation
- Title(参考訳): CompilerKV:オフライン体験コンパイルによるリスク適応型KV圧縮
- Authors: Ning Yang, Chengzhi Wang, Yibo Liu, Baoliang Tian, Haijun Zhang,
- Abstract要約: 我々は,大規模言語モデルのためのリスク適応型およびヘッドアウェア圧縮フレームワークであるCompilerKVを提案する。
CoherentKVはオフラインエクスペリエンスを、プリフィルのみのデプロイメントのために再利用可能な決定テーブルにコンパイルする。
LongBenchの実験では、CompilerKVが512の予算でSOTAメソッドを支配し、FullKVのパフォーマンスの97.7%を回復し、最大5.2ポイントを達成している。
- 参考スコア(独自算出の注目度): 16.540537092341737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) in long-context scenarios are severely constrained by the linear growth of Key-Value (KV) cache memory. Existing KV compression methods rely either on static thresholds and attention-only heuristics or on coarse memory budget allocation. Under tight memory budgets, these methods overlook two key factors: prompt-dependent variation in compression risk and functional heterogeneity across attention heads, which destabilize token selection and lead to tail failures. To address these challenges, we propose CompilerKV, a risk-adaptive and head-aware compression framework that compiles offline experience into reusable decision tables for prefill-only deployment. CompilerKV integrates two key synergistic components: (i) a Head Heterogeneity Table, learned via offline contextual bandits, which assigns head-specific reliability weights to govern functional differences across attention heads explicitly; and (ii) a Risk-Adaptive Threshold Gating mechanism that jointly models attention entropy and local perplexity, transforming prompt-level risk into deployable retention thresholds. Experiments on LongBench show CompilerKV dominates SOTA methods under a 512-token budget, recovering 97.7\% of FullKV performance while achieving up to +5.2 points gain over the strongest competitor.
- Abstract(参考訳): 長期シナリオにおけるLarge Language Models (LLM) はキーバリュー(KV)キャッシュメモリの線形成長によって厳しい制約を受ける。
既存のKV圧縮手法は、静的しきい値と注意のみのヒューリスティックまたは粗いメモリ予算の割り当てに依存する。
厳密なメモリ予算の下では、これらの手法は2つの重要な要因を見落としている: 圧縮リスクの急激な依存性と、トークン選択を不安定にし、テール障害を引き起こす注意ヘッド間の機能的不均一性である。
これらの課題に対処するために,我々は,オフラインエクスペリエンスを再利用可能な決定テーブルにコンパイルし,プリフィルのみのデプロイメントを実現する,リスク適応型かつヘッドアウェアな圧縮フレームワークであるCompilerKVを提案する。
CompilerKVは2つの重要なシナジスティックコンポーネントを統合している。
一 ヘッドヘテロジニティー表で、ヘッド固有の信頼性重みを付与し、アテンションヘッド間の機能的差異を明示的に制御する。
(ii) 注意力のエントロピーと局所的な難易度を共同でモデル化し、即時リスクを展開可能な保持閾値に変換するリスク適応閾値ゲーティング機構。
LongBenchの実験では、CompilerKVが512の予算でSOTAメソッドを支配し、FullKVのパフォーマンスの97.7%を回復し、最大5.2ポイントを達成している。
関連論文リスト
- Low-Rank Key Value Attention [3.7728602841318426]
トランスフォーマーの事前訓練は、メモリと計算要求によってますます制限される。
マルチヘッドアテンションの簡易な修正として,テキストトローランクKV適応(LRKV)を提案する。
LRKVは標準的なマルチヘッドアテンションの代替品である。
論文 参考訳(メタデータ) (2026-01-16T17:56:40Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - KVCompose: Efficient Structured KV Cache Compression with Composite Tokens [7.922206020386125]
大規模言語モデル(LLM)は、効率的な自己回帰復号化のためにキー値(KV)キャッシュに依存している。
我々は,注意誘導型,層適応型複合トークンに基づく,シンプルで効果的なKVキャッシュ圧縮フレームワークを提案する。
本手法は精度を保ちながらメモリの大幅な削減を実現し,従来手法と半構造化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-05T14:58:24Z) - Mixture of Weight-shared Heterogeneous Group Attention Experts for Dynamic Token-wise KV Optimization [27.994376063677766]
トランスフォーマーモデルは、キーバリューキャッシュの増大に対する非効率なメモリ割り当てによるスケーラビリティの課題に直面している。
そこで我々は,トークン単位の計算とメモリ割り当てを動的に最適化するMixSGAを提案する。
本研究の主な特徴は,(1)重要度スコアによって導かれるトークン単位の専門家選択ルーティング機構,(2)パラメータのオーバーヘッドを最小限に抑えるためにグループ化された注意投影のウェイトシェアリング,(3)CLMにおけるトレーニングと推論の整合性を確保するための1ホットルーティング決定のための補助的損失である。
論文 参考訳(メタデータ) (2025-06-16T14:30:17Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - Runtime Adaptive Pruning for LLM Inference [7.5252252615137225]
我々は、強化学習(RL)によって駆動される弾力的な刈り取りフレームワークであるRAPを提案する。
RAPは、実際の実行におけるモデルパラメータとKV-cacheの進化率を追跡する。
RAPは最先端のベースラインよりも優れており、モデル重量とKVcacheを同時に検討するのは初めてである。
論文 参考訳(メタデータ) (2025-05-22T06:12:42Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。