論文の概要: Predictive Multi-Tier Memory Management for KV Cache in Large-Scale GPU Inference
- arxiv url: http://arxiv.org/abs/2604.26968v1
- Date: Sun, 19 Apr 2026 21:34:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.254021
- Title: Predictive Multi-Tier Memory Management for KV Cache in Large-Scale GPU Inference
- Title(参考訳): 大規模GPU推論におけるKVキャッシュの予測型マルチティアメモリ管理
- Authors: Sanjeev Rao Ganjihal,
- Abstract要約: キーバリュー(KV)キャッシュメモリ管理は、大規模GPU推論サービスにおける主要なボトルネックである。
現在のシステムは3つの複合的非効率性に悩まされている。
3つの問題すべてに対処する統一システムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Key-value (KV) cache memory management is the primary bottleneck limiting throughput and cost-efficiency in large-scale GPU inference serving. Current systems suffer from three compounding inefficiencies: (1) the absence of unified KV cache sizing across all attention architectures--particularly multi-head latent attention (MLA), which is unsupported in general-purpose frameworks, resulting in up to 57x memory over-provisioning; (2) confinement of KV cache to a single memory tier (GPU HBM) despite the availability of a rich hierarchy spanning CPU DRAM, CXL-attached memory, NVMe via GPUDirect Storage, RDMA fabric, and parallel filesystems; and (3) reactive eviction policies that discard reusable state, forcing redundant recomputation. We present a unified system that addresses all three problems. Our architecture-variant-aware sizing engine computes exact memory requirements per attention type, enabling up to 7.4x higher batch sizes. A six-tier memory hierarchy extends effective KV cache capacity from 40 GB to over 38 TB per node while maintaining sub-millisecond time-to-first-token (TTFT) for hot entries. A Bayesian reuse predictor with Beta conjugate priors over 16 (block-type, transition-type) pairs achieves 70-84% cache hit rates, combined with EMA-scored head-granular eviction and RoPE-aware prefetching. Component-level validation on trace replay using ShareGPT, LMSYS-Chat-1M, and agentic workloads demonstrates 70-84% cache hit rates. Analytical projections combining validated component behavior with published hardware specifications indicate 1.4-2.1x projected TTFT reduction, 1.7-2.9x throughput improvement, and 47% cost reduction compared to state-of-the-art baselines.
- Abstract(参考訳): キーバリュー(KV)キャッシュメモリ管理は、大規模GPU推論サービスにおけるスループットとコスト効率を制限する主要なボトルネックである。
現在のシステムでは、CPU DRAM、CXL対応メモリ、GPUDirect Storage、RDMAファブリック、並列ファイルシステムを経由したNVMe、再利用可能な状態を捨て、冗長な再計算を強制するリアクティブな消去ポリシーの3つがあり、特に汎用フレームワークではサポートされていないマルチヘッド遅延アテンション(MLA)が最大57倍のメモリオーバープロビジョンを実現している。
3つの問題すべてに対処する統一システムを提案する。
我々のアーキテクチャの変種対応サイズエンジンは、アテンションタイプ当たりの正確なメモリ要求を計算し、最大7.4倍のバッチサイズを実現している。
6階層のメモリ階層は、40GBから38TB以上のノードに効率的なKVキャッシュ容量を拡張し、ホットエントリにはミリ秒以下のタイム・ツー・ファースト・トケン(TTFT)を維持できる。
ベータ共役前16組(ブロック型,遷移型)のベイジアン再使用予測器は,EMA-scored head-granular evictionとRoPE-aware prefetchingと組み合わせて,70~84%のキャッシュヒット率を達成した。
ShareGPT、LMSYS-Chat-1M、エージェントワークロードを使用したトレースリプレイのコンポーネントレベルの検証は、70~84%のキャッシュヒット率を示している。
検証済みコンポーネントの動作とハードウェア仕様を併用した分析予測では、1.4-2.1xのTTFT削減、1.7-2.9xのスループット改善、47%のコスト削減が見込まれている。
関連論文リスト
- Unifying Sparse Attention with Hierarchical Memory for Scalable Long-Context LLM Serving [18.681651346752766]
動的スパースアテンションは、デコーディングステップ毎にKV状態の小さなクエリ依存サブセットだけにアクセスすることで緩和を約束する。
しかし実際には、これらのアルゴリズムによる貯蓄は、エンドツーエンドのシステムレベルのゲインにはほとんど変換されない。
本稿では,階層的なKVストレージで実行パイプラインを協調設計するスパースアテンション対応推論フレームワークSPINを提案する。
論文 参考訳(メタデータ) (2026-04-29T16:02:00Z) - DUAL-BLADE: Dual-Path NVMe-Direct KV-Cache Offloading for Edge LLM Inference [6.147640298081776]
キーバリュー(KV)キャッシュは、しばしば利用可能なデバイスメモリを超える。
本稿では、KVテンソルをページキャッシュパスまたはDMAダイレクトパスに動的に割り当てるデュアルパスKV在留フレームワークであるカーネルBLADEを提案する。
推論-BLADEは、それぞれ33.1%と42.4%の遅延をプリフィルとデコードするボトルネックを実質的に緩和する。
論文 参考訳(メタデータ) (2026-04-29T11:44:35Z) - KEEP: A KV-Cache-Centric Memory Management System for Efficient Embodied Planning [8.216400469571084]
効率的な実施計画のためのKVキャッシュ型メモリ管理システムKEEPを提案する。
KEEPは,(1)混合粒度メモリグループによるKVキャッシュ再計算を低減する静的動的メモリ構築アルゴリズム,(2)異なるメモリグループ間の重要なクロスアテンションを動的に識別するマルチホップメモリ再計算アルゴリズム,(3)不均衡なKVキャッシュのロードと異なるレイヤ間のクロスアテンションを排除するレイヤバランスのメモリローディングという3つの重要なイノベーションを特徴としている。
論文 参考訳(メタデータ) (2026-02-27T01:48:07Z) - PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - CXL-SpecKV: A Disaggregated FPGA Speculative KV-Cache for Datacenter LLM Serving [5.216774377033164]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
LLMはキー値(KV)キャッシュの大規模なメモリ要求のため、課題に直面している。
我々は,新しい分散KV-cacheアーキテクチャである textbfCXL-SpecKV を提案する。
論文 参考訳(メタデータ) (2025-12-11T15:40:36Z) - HCAttention: Extreme KV Cache Compression via Heterogeneous Attention Computing for LLMs [13.013668526921778]
既存のKVキャッシュ圧縮手法は、メモリが85%以上削減されたときに顕著な性能劣化を示す。
我々は、鍵量子化、値オフロード、動的KV消去を統合した異種アテンションフレームワークであるHCAttentionを提案する。
また,LongBenchベンチマークを用いて,KVキャッシュメモリのフットプリントを25%に縮めながら,本手法が完全アテンションモデルの精度を維持することを示した。
論文 参考訳(メタデータ) (2025-07-26T06:43:14Z) - A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文 参考訳(メタデータ) (2025-02-21T10:12:34Z) - HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading [79.38548165722229]
HEADINFERはKVキャッシュをCPURAMにオフロードするが、GPU上のトランスフォーマー層のKVキャッシュを完全に保存する必要はない。
HEADINFERはメモリフットプリントを大幅に削減し,計算効率を向上することを示した。
論文 参考訳(メタデータ) (2025-02-18T06:26:05Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。