論文の概要: Understanding the Physics of Key-Value Cache Compression for LLMs through Attention Dynamics
- arxiv url: http://arxiv.org/abs/2603.01426v1
- Date: Mon, 02 Mar 2026 04:16:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.674536
- Title: Understanding the Physics of Key-Value Cache Compression for LLMs through Attention Dynamics
- Title(参考訳): 注意ダイナミクスによるLLMのキーバリューキャッシュ圧縮の物理理解
- Authors: Samhruth Ananthanarayanan, Ayan Sengupta, Tanmoy Chakraborty,
- Abstract要約: トークンレベルのルーティングの制御摂動として,KV圧縮を物理に着想を得た視点を提案する。
適度な圧縮は、内部表現をほとんど精度の低下なく劣化させ、冗長性を明らかにする。
トークンサバイバルにもかかわらず、過度なヘッドレベルのコンセンサスによってルーティングの柔軟性が崩壊する表現剛性を特定する。
- 参考スコア(独自算出の注目度): 22.98826013817833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As context windows in LLMs scale to 100K+ tokens, the key-value (KV) cache becomes the dominant memory bottleneck, with recent methods claiming 80-90% savings and minimal benchmark degradation. We argue these evaluations miss a structural issue: attention is not just storage but routing, and retaining KV pairs does not guarantee semantic accessibility. We propose a physics-inspired view of KV compression as a controlled perturbation of token-level routing, distinguishing retention, accessibility, and utilization. Using synthetic tasks probing multi-entity tracking, disambiguation, coreference, and multi-hop reasoning, we find that moderate compression degrades internal representations with little accuracy loss, revealing redundancy; all models exhibit a sharp hallucination safety cliff near 90% compression, correlated with spikes in Global Eviction Ratio (GER), suggesting a phase transition in semantic reachability; and architectures differ in routing dynamics, with LLaMA showing early consensus and late diversification, and Qwen showing funnel-like late convergence, leading to distinct resilience profiles. Beyond erasure, we identify representational rigidity, where excessive head-level consensus collapses routing flexibility despite token survival. These results suggest sparse token-route structures govern compression tolerance, reframing KV compression as a structural probe of attention geometry and linking long-context scalability to sparsity and the lottery ticket hypothesis in self-attention.
- Abstract(参考訳): LLMのコンテキストウィンドウが100K以上のトークンにスケールするにつれて、キー値(KV)キャッシュが主要なメモリボトルネックとなり、最近の手法では80~90%の節約とベンチマークの最小化が主張されている。
注意はストレージではなくルーティングであり、KVペアの保持はセマンティックアクセシビリティを保証するものではない。
我々は,KV圧縮を物理に着想を得た視点として,トークンレベルのルーティングを制御し,保持性,アクセシビリティ,利用性を区別する手法を提案する。
マルチエンタリティ追跡, 曖昧さ, コア推論, マルチホップ推論を探索する合成タスクを用いて, 中程度の圧縮は内部表現をほとんど精度を損なわずに劣化させ, 冗長性を明らかにすること, 全てのモデルが90%近くの急激な幻覚的安全性の限界を示すこと, GER(Global Eviction Ratio)のスパイクと相関し, セマンティック・リーチビリティの相転移を示唆すること, アーキテクチャはルーティング・ダイナミクスが異なること, LLaMAは早期のコンセンサスと後期の多様化を示し, Qwenはファンネル様の遅延収束を示し, 異なるレジリエンス・プロファイルを示す。
消去以外にも、トークンの生存にもかかわらず、過度な頭レベルでのコンセンサスによってルーティングの柔軟性が崩壊する表現的剛性を識別する。
これらの結果から,狭小トークンルート構造は圧縮耐性を制御し,KV圧縮を注目幾何学の構造的プローブとみなし,長文のスケーラビリティを疎結合とし,自己注意における抽選券の仮説を導出した。
関連論文リスト
- Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction [50.99402504483692]
凍結重み付き言語モデルのための新しいゲーティングベースのKVキャッシュ消去手法を提案する。
私たちのアプローチは、プリフィルとデコードの両方の段階にシームレスに統合されます。
実験の結果,KVキャッシュの最大70%を除去しながら,ほぼ無作為な性能を維持していることがわかった。
論文 参考訳(メタデータ) (2026-01-25T03:07:54Z) - OjaKV: Context-Aware Online Low-Rank KV Cache Compression with Oja's Rule [54.37983890753086]
我々は,戦略的ハイブリッドストレージポリシとオンラインサブスペース適応を統合したフレームワークであるOjaKVを紹介する。
OjaKVは、重要かつ最新のトークンをフルランクで保存し、注意のために高忠実なアンカーを維持している。
オンライン主成分分析のためのOjaのアルゴリズムを用いて、プロジェクションベースを漸進的に適応させることにより、低ランク圧縮を適用する。
論文 参考訳(メタデータ) (2025-09-25T21:42:27Z) - KVCompose: Efficient Structured KV Cache Compression with Composite Tokens [7.922206020386125]
大規模言語モデル(LLM)は、効率的な自己回帰復号化のためにキー値(KV)キャッシュに依存している。
我々は,注意誘導型,層適応型複合トークンに基づく,シンプルで効果的なKVキャッシュ圧縮フレームワークを提案する。
本手法は精度を保ちながらメモリの大幅な削減を実現し,従来手法と半構造化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-05T14:58:24Z) - CommonKV: Compressing KV Cache with Cross-layer Parameter Sharing [54.34080239841088]
CommonKVは、隣接パラメータ共有による層間KVキャッシュ圧縮のトレーニング不要な方法である。
提案手法は,様々な圧縮比で既存の低ランクおよびクロスレイヤーの手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-08-22T06:55:45Z) - Krul: Efficient State Restoration for Multi-turn Conversations with Dynamic Cross-layer KV Sharing [41.792908098945766]
我々は,KVキャッシュの正確かつ効率的な復元を可能にするマルチターンLDM推論システムであるKrulを提案する。
Krulは、レイヤペア間の注目類似性に基づいて圧縮戦略を選択し、再計算ローディングパイプラインを使用してKVキャッシュを復元する。
タイム・ツー・ファースト・トケン(TTFT)の1.5x-2.68倍の削減、KVキャッシュストレージの1.33x-2.35倍の削減を実現している。
論文 参考訳(メタデータ) (2025-07-10T01:51:17Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - Can LLMs Maintain Fundamental Abilities under KV Cache Compression? [29.510433427184385]
各種基本言語モデルにおけるKVキャッシュ圧縮の効果を評価するためのベンチマークKVFundaBenchを提案する。
ショットレベルのセマンティックコヒーレンスを維持しつつ、プリフィルとデコードフェーズを処理する新しい圧縮手法ShotKVを提案する。
論文 参考訳(メタデータ) (2025-02-04T02:23:06Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [61.412894960600205]
大きな言語モデル(LLM)は、長いテキストを処理する際に大きなGPUメモリを必要とする。
ChunkKVは、セマンティックチャンクを基本的な圧縮単位として扱うことで、KVキャッシュ圧縮を再定義する。
結果: ChunkKVは最先端の手法を最大8.7%精度で上回る。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z) - EMS: Adaptive Evict-then-Merge Strategy for Head-wise KV Cache Compression Based on Global-Local Importance [44.14919492126948]
メモリオーバーヘッドが重要になるにつれて、KVキャッシュの効率的な圧縮が注目されている。
我々は,これらの制限を克服すると同時に,極端な圧縮比下でのKVキャッシュ圧縮を向上するEMSを提案する。
EMSは最低の難易度を一貫して達成し、256のキャッシュ予算の下でLongBench上の4つのLLMで1.28ポイント以上改善し、Needdle-in-a-Haystackタスクのコンテキスト長の2%未満のキャッシュ予算で95%の検索精度を維持している。
論文 参考訳(メタデータ) (2024-12-11T16:35:13Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - UNComp: Can Matrix Entropy Uncover Sparsity? -- A Compressor Design from an Uncertainty-Aware Perspective [85.08718140718707]
UNCompは不確実性を認識したフレームワークで、適応圧縮に使用できる空間パターンを明らかにする。
スパーシティパターンを詳細に分析する不確実性に注目して、UNCompはKVキャッシュサイズを4.74%に削減し、6%のプリフィルスピードアップを実現し、スループットを6.4倍改善した。
論文 参考訳(メタデータ) (2024-10-04T02:32:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。