論文の概要: PagedEviction: Structured Block-wise KV Cache Pruning for Efficient Large Language Model Inference
- arxiv url: http://arxiv.org/abs/2509.04377v1
- Date: Thu, 04 Sep 2025 16:40:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.224509
- Title: PagedEviction: Structured Block-wise KV Cache Pruning for Efficient Large Language Model Inference
- Title(参考訳): PagedEviction: 効率的な大規模言語モデル推論のための構造化ブロックワイドKVキャッシュプルーニング
- Authors: Krishna Teja Chitty-Venkata, Jie Ye, Xian-He Sun, Anthony Kougkas, Murali Emani, Venkatram Vishwanath, Bogdan Nicolae,
- Abstract要約: シーケンス長が増加するにつれて、KVキャッシュは主要なメモリボトルネックとなる。
提案するPagedEvictionは,KVキャッシュの微細化を図った新しいキャッシュ・プルーニング戦略である。
長いコンテキストタスクのベースラインよりも高い精度でメモリ使用率の向上を示す。
- 参考スコア(独自算出の注目度): 2.378082625096367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: KV caching significantly improves the efficiency of Large Language Model (LLM) inference by storing attention states from previously processed tokens, enabling faster generation of subsequent tokens. However, as sequence length increases, the KV cache quickly becomes a major memory bottleneck. To address this, we propose PagedEviction, a novel fine-grained, structured KV cache pruning strategy that enhances the memory efficiency of vLLM's PagedAttention. Unlike existing approaches that rely on attention-based token importance or evict tokens across different vLLM pages, PagedEviction introduces an efficient block-wise eviction algorithm tailored for paged memory layouts. Our method integrates seamlessly with PagedAttention without requiring any modifications to its CUDA attention kernels. We evaluate PagedEviction across Llama-3.1-8B-Instruct, Llama-3.2-1B-Instruct, and Llama-3.2-3B-Instruct models on the LongBench benchmark suite, demonstrating improved memory usage with better accuracy than baselines on long context tasks.
- Abstract(参考訳): KVキャッシュは、以前に処理されたトークンから注目状態を保存することで、Large Language Model (LLM)推論の効率を大幅に改善し、その後のトークンを高速に生成できる。
しかし、シーケンス長が増加するにつれて、KVキャッシュは急速に大きなメモリボトルネックとなる。
そこで我々は,vLLMのPagedAttentionのメモリ効率を向上するKVキャッシュプレーニング戦略であるPagedEvictionを提案する。
注意に基づくトークンの重要性や、異なるvLLMページにまたがるエヴィットトークンに依存する既存のアプローチとは異なり、PagedEvictionは、ページメモリレイアウトに適した効率的なブロック単位のエビクションアルゴリズムを導入している。
本手法は,CUDAアテンションカーネルの変更を必要とせず,PagedAttentionとシームレスに統合する。
Llama-3.1-8B-インストラクト、Llama-3.2-1B-インストラクト、Llama-3.2-3B-インストラクトモデルに対して、LongBenchベンチマークスイート上でPagedEvictionを評価する。
関連論文リスト
- SentenceKV: Efficient LLM Inference via Sentence-Level Semantic KV Caching [9.617322424513317]
SentenceKVは、セマンティックコヒーレンスを保持しながら推論効率を向上させるために設計された、新しいKVキャッシュアプローチである。
本研究では,SentenceKVがモデル精度を損なうことなく,効率とメモリ使用量の両方において最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-01T17:08:57Z) - Inference-Friendly Models With MixAttention [7.103010772135246]
MixAttentionは、最近のトークンの小さなサブセットだけをKVキャッシュに格納するスライディングウィンドウアテンションと、レイヤ間のKVキャッシュ共有を組み合わせたものだ。
実験により,MixAttentionはメモリ使用量を大幅に削減し,短文タスクと長文タスクの両方においてモデル性能を犠牲にすることなく推論速度を向上することを示した。
論文 参考訳(メタデータ) (2024-09-23T13:37:25Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。