論文の概要: SABlock: Semantic-Aware KV Cache Eviction with Adaptive Compression Block Size
- arxiv url: http://arxiv.org/abs/2510.22556v1
- Date: Sun, 26 Oct 2025 07:17:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.244978
- Title: SABlock: Semantic-Aware KV Cache Eviction with Adaptive Compression Block Size
- Title(参考訳): SABlock: 適応圧縮ブロックサイズを持つセマンティックなKVキャッシュ定義
- Authors: Jinhan Chen, Jianchun Liu, Hongli Xu, Xianjun Gao, Shilong Wang,
- Abstract要約: SABlockは、アンダーラインブロックサイズを持つアンダーラインセマンティックなKVキャッシュ消去フレームワークである。
SABlockはまずセマンティックセグメンテーションを行い、圧縮境界を言語構造と整合させ、次にセグメント誘導トークンスコアリングを適用してトークンの重要度を推定する。
長期コンテキストベンチマークの実験では、SABlockは最先端のベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 20.4175480790854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing memory footprint of the Key-Value (KV) cache poses a severe scalability bottleneck for long-context Large Language Model (LLM) inference. While KV cache eviction has emerged as an effective solution by discarding less critical tokens, existing token-, block-, and sentence-level compression methods struggle to balance semantic coherence and memory efficiency. To this end, we introduce SABlock, a \underline{s}emantic-aware KV cache eviction framework with \underline{a}daptive \underline{block} sizes. Specifically, SABlock first performs semantic segmentation to align compression boundaries with linguistic structures, then applies segment-guided token scoring to refine token importance estimation. Finally, for each segment, a budget-driven search strategy adaptively determines the optimal block size that preserves semantic integrity while improving compression efficiency under a given cache budget. Extensive experiments on long-context benchmarks demonstrate that SABlock consistently outperforms state-of-the-art baselines under the same memory budgets. For instance, on Needle-in-a-Haystack (NIAH), SABlock achieves 99.9% retrieval accuracy with only 96 KV entries, nearly matching the performance of the full-cache baseline that retains up to 8K entries. Under a fixed cache budget of 1,024, SABlock further reduces peak memory usage by 46.28% and achieves up to 9.5x faster decoding on a 128K context length.
- Abstract(参考訳): キーバリュー(KV)キャッシュのメモリフットプリントの増加は、Long-context Large Language Model(LLM)推論に深刻なスケーラビリティのボトルネックをもたらす。
KVキャッシュの排除は、あまり重要でないトークンを捨てることによる効果的な解決策として現れてきたが、既存のトークン、ブロック、文レベルの圧縮メソッドは、セマンティックコヒーレンスとメモリ効率のバランスをとるのに苦労している。
この目的のために、SABlock, a \underline{s}emantic-aware KV cache eviction framework with \underline{a}daptive \underline{block} sizesを紹介する。
具体的には、SABlockはまずセマンティックセグメンテーションを行い、圧縮境界を言語構造と整列させ、次にセグメント誘導トークンスコアリングを適用してトークンの重要度を推定する。
最後に、各セグメントに対して、所定のキャッシュ予算下で圧縮効率を向上しつつセマンティックな整合性を維持する最適なブロックサイズを、予算主導の探索戦略が適応的に決定する。
長期コンテキストベンチマークの大規模な実験により、SABlockは、同じメモリ予算の下で、常に最先端のベースラインを上回っていることが示された。
例えば、Needle-in-a-Haystack (NIAH)では、SABlockは96KVのエントリで99.9%の検索精度を達成しており、最大8Kのエントリを保持するフルキャッシュベースラインのパフォーマンスとほぼ一致している。
固定キャッシュ予算の1,024では、SABlockはさらにピークメモリ使用量を46.28%削減し、128Kのコンテキスト長で最大9.5倍高速なデコードを実現している。
関連論文リスト
- DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - More Than a Quick Glance: Overcoming the Greedy Bias in KV-Cache Compression [0.0]
LASER-KVは、厳格な累積予算政策の下でKV圧縮の限界をテストするために設計されたフレームワークである。
Babilongベンチマークの実験では、様々な長期タスクにおいて、従来の圧縮手法のパフォーマンスが15~30%向上した。
論文 参考訳(メタデータ) (2026-02-02T15:05:03Z) - KVReviver: Reversible KV Cache Compression with Sketch-Based Token Reconstruction [20.53279247581787]
スケッチアルゴリズムに基づく可逆的なKVキャッシュ圧縮手法であるKVReviverを提案する。
2kのコンテキストでは、同じエンドツーエンドの推論精度を維持しながら、KVキャッシュの予算の10%しか必要としない。
32kのコンテキストでは、同等または同等の精度の2%の精度の損失を達成する。
論文 参考訳(メタデータ) (2025-12-01T03:59:20Z) - OjaKV: Context-Aware Online Low-Rank KV Cache Compression with Oja's Rule [54.37983890753086]
我々は,戦略的ハイブリッドストレージポリシとオンラインサブスペース適応を統合したフレームワークであるOjaKVを紹介する。
OjaKVは、重要かつ最新のトークンをフルランクで保存し、注意のために高忠実なアンカーを維持している。
オンライン主成分分析のためのOjaのアルゴリズムを用いて、プロジェクションベースを漸進的に適応させることにより、低ランク圧縮を適用する。
論文 参考訳(メタデータ) (2025-09-25T21:42:27Z) - Mustafar: Promoting Unstructured Sparsity for KV Cache Pruning in LLM Inference [2.0449242727404235]
非構造化空間は、LLMのKVキャッシュ圧縮を大幅に改善する。
非構造化空間下でのキーキャッシュとバリューキャッシュの両方に高い効果が期待できる。
論文 参考訳(メタデータ) (2025-05-28T22:32:15Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [61.412894960600205]
大きな言語モデル(LLM)は、長いテキストを処理する際に大きなGPUメモリを必要とする。
ChunkKVは、セマンティックチャンクを基本的な圧縮単位として扱うことで、KVキャッシュ圧縮を再定義する。
結果: ChunkKVは最先端の手法を最大8.7%精度で上回る。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。