論文の概要: Comparative Characterization of KV Cache Management Strategies for LLM Inference
- arxiv url: http://arxiv.org/abs/2604.05012v1
- Date: Mon, 06 Apr 2026 16:00:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.405903
- Title: Comparative Characterization of KV Cache Management Strategies for LLM Inference
- Title(参考訳): LLM推論のためのKVキャッシュ管理手法の比較評価
- Authors: Oteo Mamo, Olga Kogiou, Hyunjin Yi, Weikuan Yu,
- Abstract要約: 大言語モデル(LLM)を用いた効率的な推論にはキーバリューキャッシュが不可欠である
これらのキャッシュは、自己回帰トークン生成時の冗長な計算を最小限にするために必須である。
KVキャッシュの成長は、システムレベルの大きな課題を引き起こしている。
- 参考スコア(独自算出の注目度): 0.31498833540989407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient inference with Large Language Models (LLMs) increasingly relies on Key-Value (KV) caches to store previously computed key and value vectors at each layer. These caches are essential to minimize redundant computation during autoregressive token generation, lowering computational complexity from quadratic to linear. However, the growth of KV caches has posed significant system-level challenges, particularly as model sizes increase, context lengths grow, and concurrent requests compete for limited memory resources. Even though several recent frameworks for KV cache management have emerged, their comparative trade-offs in memory consumption and inference performance have not been fully understood, especially under varying request sizes and model configurations. In this work, we conduct an empirical study of three state-of-the-art KV cache management frameworks: vLLM, InfiniGen, and H2O. These frameworks employ techniques such as tensor offloading, token eviction heuristics, and speculative scheduling to balance memory usage and performance. We evaluate their performance in terms of a range of metrics such as latency, throughput, and memory usage across a spectrum of key parameters including request rates, model sizes, and sparsity levels. Our results pinpoint the conditions for each framework to perform the best, revealing the most suitable selection and configuration of KV cache strategies under memory and performance constraints.
- Abstract(参考訳): LLM(Large Language Models)による効率的な推論は、以前計算されたキーと値ベクトルを各レイヤに格納するためにキーバリュー(KV)キャッシュに依存している。
これらのキャッシュは、自己回帰トークン生成時の冗長な計算を最小限に抑え、計算の複雑さを2次から線形に減らすために不可欠である。
しかしながら、KVキャッシュの成長は、特にモデルサイズの増加、コンテキストの長さの増加、メモリリソースの制限に対する同時要求など、システムレベルの大きな課題を引き起こしている。
KVキャッシュ管理のための最近のフレームワークがいくつか登場したが、メモリ消費と推論性能の比較トレードオフは、特に要求サイズやモデル構成の違いによって完全には理解されていない。
本研究では,3つの最先端KVキャッシュ管理フレームワーク,vLLM,InfiniGen,H2Oについて実証的研究を行った。
これらのフレームワークは、テンソルオフロード、トークン消去ヒューリスティックス、メモリ使用量と性能のバランスをとるための投機的スケジューリングといったテクニックを採用している。
レイテンシ、スループット、メモリ使用量など、要求率、モデルサイズ、スパーシリティレベルを含む重要なパラメータの範囲で、それらのパフォーマンスを評価する。
その結果,メモリおよび性能制約下でのKVキャッシュ戦略の最適選択と構成を明らかにすることで,各フレームワークが最善を尽くす条件を明らかにした。
関連論文リスト
- CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。
CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。
我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2024-12-16T13:01:53Z) - SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。
我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。
我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-11T12:50:42Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。