論文の概要: LAVa: Layer-wise KV Cache Eviction with Dynamic Budget Allocation
- arxiv url: http://arxiv.org/abs/2509.09754v1
- Date: Thu, 11 Sep 2025 16:48:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.883713
- Title: LAVa: Layer-wise KV Cache Eviction with Dynamic Budget Allocation
- Title(参考訳): LAVa:動的予算割当によるレイヤワイドKVキャッシュ推定
- Authors: Yiqun Shen, Song Yuan, Zhengze Zhang, Xiaoliang Wang, Daxin Jiang, Nguyen Cam-Tu,
- Abstract要約: KVキャッシュはLLM推論を長いコンテキストで高速化するために一般的に使用される。
しかし、既存の圧縮方法はほとんどなく、動的予算配分が欠如している。
本稿では,Transformer残ストリームにおける情報損失を最小限に抑えることにより,キャッシュ圧縮のための統一的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 24.45300622331682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: KV Cache is commonly used to accelerate LLM inference with long contexts, yet its high memory demand drives the need for cache compression. Existing compression methods, however, are largely heuristic and lack dynamic budget allocation. To address this limitation, we introduce a unified framework for cache compression by minimizing information loss in Transformer residual streams. Building on it, we analyze the layer attention output loss and derive a new metric to compare cache entries across heads, enabling layer-wise compression with dynamic head budgets. Additionally, by contrasting cross-layer information, we also achieve dynamic layer budgets. LAVa is the first unified strategy for cache eviction and dynamic budget allocation that, unlike prior methods, does not rely on training or the combination of multiple strategies. Experiments with benchmarks (LongBench, Needle-In-A-Haystack, Ruler, and InfiniteBench) demonstrate its superiority. Moreover, our experiments reveal a new insight: dynamic layer budgets are crucial for generation tasks (e.g., code completion), while dynamic head budgets play a key role in extraction tasks (e.g., extractive QA). As a fully dynamic compression method, LAVa consistently maintains top performance across task types. Our code is available at https://github.com/MGDDestiny/Lava.
- Abstract(参考訳): KVキャッシュはLLM推論を長いコンテキストで高速化するために一般的に使用されるが、その高いメモリ需要はキャッシュ圧縮の必要性を招いている。
しかし、既存の圧縮方法は概ねヒューリスティックであり、動的予算配分が欠如している。
この制限に対処するため、Transformer残ストリームにおける情報損失を最小限に抑えることにより、キャッシュ圧縮のための統一的なフレームワークを導入する。
そこで我々は,階層のアテンション出力損失を分析し,ヘッド間のキャッシュエントリを比較するための新しい指標を導出し,動的ヘッド予算によるレイヤワイド圧縮を実現する。
さらに、層間情報を対比することにより、動的層予算も達成できる。
LAVaはキャッシュ消去と動的予算配分のための最初の統一戦略であり、従来の方法とは異なり、トレーニングや複数の戦略の組み合わせに依存しない。
ベンチマーク(LongBench, Needle-In-A-Haystack, Ruler, InfiniteBench)による実験は、その優位性を示している。
動的レイヤ予算は生成タスク(例えば、コード補完)に不可欠であり、動的ヘッド予算は、抽出タスク(例えば、抽出QA)において重要な役割を果たす。
完全に動的な圧縮方法として、LAVaはタスクタイプ間のトップパフォーマンスを一貫して維持する。
私たちのコードはhttps://github.com/MGDDestiny/Lava.orgから入手可能です。
関連論文リスト
- LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。
LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文 参考訳(メタデータ) (2025-07-14T19:09:57Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。
近年,KVキャッシュの隠蔽次元の低減について検討されている。
本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - Lookahead Q-Cache: Achieving More Consistent KV Cache Eviction via Pseudo Query [48.52389201779425]
KVキャッシュメモリの使用は、長いテキストシーケンスで大幅に増加する。
プリフィルステージアテンションスコアを用いた既存のKVキャッシュ消去手法Pruneトークン
Lookahead Q-Cacheは、真のデコードステージクエリをよりよく近似するために、低コストの疑似ルックアヘッドクエリを生成する。
論文 参考訳(メタデータ) (2025-05-24T10:34:38Z) - ZigZagkv: Dynamic KV Cache Compression for Long-context Modeling based on Layer Uncertainty [35.947737679664016]
推論長が増加するにつれて、KVキャッシュの増加はメモリ外問題を引き起こす可能性がある。
本稿では,各層に予算規模を割り当てるために,層不確実性を利用した簡易かつ効果的なKVキャッシュ圧縮手法を提案する。
実験の結果,提案手法はフルKV推定と比較して,KVキャッシュのメモリ使用量を$sim$20%に削減できることがわかった。
論文 参考訳(メタデータ) (2024-12-12T07:52:56Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - LoMA: Lossless Compressed Memory Attention [0.0]
Lossless Compressed Memory Attention (LoMA) は、自己回帰生成時のメモリと計算要求を減らす新しいアプローチである。
LoMAには、圧縮コンテキストに最適化された自己回帰生成アルゴリズムとともに、特別なトレーニングや微調整の事前処理が組み込まれている。
実験的検証により、LoMAは計算消費とメモリ使用量を大幅に削減した。
論文 参考訳(メタデータ) (2024-01-16T09:18:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。