論文の概要: OBCache: Optimal Brain KV Cache Pruning for Efficient Long-Context LLM Inference
- arxiv url: http://arxiv.org/abs/2510.07651v1
- Date: Thu, 09 Oct 2025 00:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.796401
- Title: OBCache: Optimal Brain KV Cache Pruning for Efficient Long-Context LLM Inference
- Title(参考訳): OBCache: 効率的な長期LLM推論のための最適なブレインKVキャッシュプルーニング
- Authors: Yuzhe Gu, Xiyu Liang, Jiaojiao Zhao, Enmao Diao,
- Abstract要約: 本稿では,キャッシュ消去を階層的に構造化したプルーニング問題として定式化するフレームワークを提案する。
プルーニングトークンによって誘導される注意出力の摂動を、孤立鍵、孤立値、結合鍵-値対に導かれる閉形式スコアを用いて測定する。
我々のスコアは、注意重みだけでなく、価値状態や注意出力からの情報も考慮し、既存の逸脱戦略を出力対応信号で強化する。
- 参考スコア(独自算出の注目度): 11.315090790312041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) with extended context windows enable powerful downstream applications but impose significant memory overhead, as caching all key-value (KV) states scales linearly with sequence length and batch size. Existing cache eviction methods address this by exploiting attention sparsity, yet they typically rank tokens heuristically using accumulated attention weights without considering their true impact on attention outputs. We propose Optimal Brain Cache (OBCache), a principled framework that formulates cache eviction as a layer-wise structured pruning problem. Building upon the Optimal Brain Damage (OBD) theory, OBCache quantifies token saliency by measuring the perturbation in attention outputs induced by pruning tokens, with closed-form scores derived for isolated keys, isolated values, and joint key-value pairs. Our scores account not only for attention weights but also for information from value states and attention outputs, thereby enhancing existing eviction strategies with output-aware signals. Experiments on LLaMA and Qwen models demonstrate that replacing the heuristic scores in existing works, which estimate token saliency across different query positions, with OBCache's output-aware scores consistently improves long-context accuracy.
- Abstract(参考訳): 拡張コンテキストウィンドウを備えた大規模言語モデル(LLM)は、強力なダウンストリームアプリケーションを実現するが、キー値(KV)状態のキャッシュはシーケンス長とバッチサイズで線形にスケールするので、メモリオーバーヘッドが大幅に増大する。
既存のキャッシュ消去法は、注意範囲を利用してこの問題に対処するが、通常は注意出力に対する真の影響を考慮せずに、蓄積した注意重みをヒューリスティックに用いたトークンをランク付けする。
本稿では,階層的に構造化されたプルーニング問題としてキャッシュ消去を定式化するための原則的フレームワークであるOBCacheを提案する。
OBCacheは、最適脳損傷(OBD)理論に基づいて、トークンのプルーニングによって誘導される注意出力の摂動を測定し、孤立鍵、孤立値、結合キー-値対から導出される閉形式スコアを用いてトークンの塩分濃度を定量化する。
我々のスコアは、注意重みだけでなく、価値状態や注意出力からの情報も考慮し、既存の逸脱戦略を出力対応信号で強化する。
LLaMAとQwenモデルの実験では、既存の作業におけるヒューリスティックスコア(異なるクエリ位置にわたるトークンのサリエンシを推定する)をOBCacheのアウトプット・アウェアスコアに置き換えることで、長いコンテキストの精度が一貫して向上することが示されている。
関連論文リスト
- Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文 参考訳(メタデータ) (2025-09-13T03:34:12Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - Lookahead Q-Cache: Achieving More Consistent KV Cache Eviction via Pseudo Query [48.52389201779425]
KVキャッシュメモリの使用は、長いテキストシーケンスで大幅に増加する。
プリフィルステージアテンションスコアを用いた既存のKVキャッシュ消去手法Pruneトークン
Lookahead Q-Cacheは、真のデコードステージクエリをよりよく近似するために、低コストの疑似ルックアヘッドクエリを生成する。
論文 参考訳(メタデータ) (2025-05-24T10:34:38Z) - CAKE: Cascading and Adaptive KV Cache Eviction with Layer Preferences [36.05521425453999]
大きな言語モデル(LLM)は長いシーケンスの処理に優れ、キーバリュー(KV)キャッシングの需要が増大する。
我々は、KVキャッシュ消去を「ケーキスライシング問題」とみなす新しいアプローチであるCascading and Adaptive KV cache Eviction (CAKE)を導入する。
CAKEは、空間次元と時間次元の両方の注意ダイナミクスを考慮して層固有の好みを評価し、それに応じて合理的なキャッシュサイズを割り当て、カスケード方式でメモリ制約を管理する。
論文 参考訳(メタデータ) (2025-03-16T12:49:44Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - PQCache: Product Quantization-based KVCache for Long Context LLM Inference [27.523568511043273]
Key-Value Cache (KVCache) は、大規模言語モデル(LLM)内のトークンの中間表現である。
本稿では,KVCacheの管理にPQ(Product Quantization)を採用しているPQCacheを提案する。
PQCacheは有効性と効率の両方を実現しており、InfiniteBenchの既存のメソッドよりも4.60%のスコアが向上している。
論文 参考訳(メタデータ) (2024-07-01T13:05:42Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。