論文の概要: LMCache: An Efficient KV Cache Layer for Enterprise-Scale LLM Inference
- arxiv url: http://arxiv.org/abs/2510.09665v1
- Date: Wed, 08 Oct 2025 00:15:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.536382
- Title: LMCache: An Efficient KV Cache Layer for Enterprise-Scale LLM Inference
- Title(参考訳): LMCache: エンタープライズ規模のLLM推論のための効率的なKVキャッシュ層
- Authors: Yihua Cheng, Yuhan Liu, Jiayi Yao, Yuwei An, Xiaokun Chen, Shaoting Feng, Yuyang Huang, Samuel Shen, Kuntai Du, Junchen Jiang,
- Abstract要約: LMCacheは、オープンソースのKVキャッシュソリューションとして、これまでで最も効率的です。
現代のLLMエンジンによって生成されたKVキャッシュを抽出し、格納し、エンジンとクエリ間でKVキャッシュを共有する。
LMCacheとvLLMを組み合わせることで,ワークロードのスループットが最大15倍向上することを示す。
- 参考スコア(独自算出の注目度): 27.24239725255976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Today's LLM inference systems treat individual engines and queries independently for simplicity, but this causes significant resource inefficiencies. While there are proposals to avoid redundant computation by reusing KV caches across queries and to increase GPU utilization by disaggregating a single query to different engines, their promises cannot be realized without efficiently offloading and communicating KV cache across LLM inference engines and queries. We present LMCache, the first and so far the most efficient open-source KV caching solution, which extracts and stores KV caches generated by modern LLM engines (vLLM and SGLang) and shares the KV caches across engines and queries. LMCache exposes KV caches in the LLM engine interface, effectively transforming LLM engines from individual token processors to a collection of engines with KV cache as the storage and communication medium. In particular, it supports both cache offloading (prefix reuse across queries) and prefill-decode disaggregation (cross-engine cache transfer). LMCache's high performance and wide adoption stem from the following contributions: highly optimized KV cache data movement with performance optimizations including batched data movement operations, compute and I/O pipelining; a modular KV cache connector component, decoupling LMCache from the rapid evolution of inference engines; a first-class control API, such as pinning, lookup, cleanup, movement, and compression, for flexible cache orchestration across GPU, CPU, storage, and network layers. Evaluation shows that combining LMCache with vLLM achieves up to 15x improvement in throughput across diverse workloads. With a growing community, LMCache has seen dramatic growth in adoption by enterprise inference systems, which provides valuable lessons for future KV caching solutions. The source code of LMCache is at: https://github.com/LMCache/LMCache.
- Abstract(参考訳): 今日のLLM推論システムは、個別のエンジンとクエリを独立して単純化するが、これはリソースの非効率を著しく引き起こす。
クエリをまたいだKVキャッシュの再利用による冗長な計算の回避と、異なるエンジンに単一のクエリを分散させることによるGPU利用率の向上が提案されているが、それらの約束はLLM推論エンジンとクエリをまたいだKVキャッシュの効率的なオフロードと通信なしには実現できない。
我々は,最新のLLMエンジン(vLLMとSGLang)が生成するKVキャッシュを抽出,保存し,エンジンとクエリ間でKVキャッシュを共有する,オープンソースのKVキャッシュソリューションであるLMCacheを紹介した。
LMCacheはLLMエンジンインターフェースにKVキャッシュを公開し、LLMエンジンを個々のトークンプロセッサからKVキャッシュを格納および通信媒体とするエンジンのコレクションに効果的に変換する。
特に、キャッシュオフロード(クエリ間のプリフィックス再利用)とプリフィル・デコード・デアグリゲーション(クロスエンジンキャッシュ転送)の両方をサポートしている。
バッチデータ移動操作、計算処理、I/Oパイプライニングを含むパフォーマンス最適化を備えた、高度に最適化されたKVキャッシュデータムーブメント、モジュール型のKVキャッシュコネクタコンポーネント、推論エンジンの急速な進化からLMCacheを分離する、ピンニング、ルックアップ、クリーンアップ、ムーブメント、圧縮などのファーストクラスのコントロールAPI、GPU、CPU、ストレージ、ネットワーク層間の柔軟なキャッシュオーケストレーションを実現する。
LMCacheとvLLMを組み合わせることで、さまざまなワークロードにおけるスループットが最大で15倍向上することを示している。
コミュニティが成長するにつれて、LMCacheは企業推論システムによる採用を劇的に増加させ、将来のKVキャッシュソリューションに価値ある教訓を提供する。
LMCacheのソースコードは以下の通りである。
関連論文リスト
- LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。
LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文 参考訳(メタデータ) (2025-07-14T19:09:57Z) - dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-21T17:32:10Z) - SpeCache: Speculative Key-Value Caching for Efficient Generation of LLMs [44.41154292836592]
我々は,完全なKVキャッシュをオフロードし,各デコードステップでKVペアを動的にフェッチするSpeCacheを提案する。
LongBenchとNeedle-in-a-Haystackベンチマークの実験では、SpeCacheがVRAMの使用を効果的に削減していることが確認されている。
論文 参考訳(メタデータ) (2025-03-20T14:01:56Z) - InstCache: A Predictive Cache for LLM Serving [6.076957323090607]
キャッシング技術は、大規模言語モデル推論エンジンのパフォーマンスを最適化する機会を提供する。
命令の内容と長さのばらつきが大きいため、同じ命令が短時間のウィンドウ内で再帰することは稀である。
LLMサービスシステムの予測キャッシュ機構であるInstCacheを提案する。
論文 参考訳(メタデータ) (2024-11-21T03:52:41Z) - Compute Or Load KV Cache? Why Not Both? [6.982874528357836]
Cakeは計算資源とI/Oリソースを並列に最適に利用する新しいKVキャッシュローディングシステムである。
Cakeは、計算のみの手法やI/Oのみの手法と比較して、TTFT(Time to First Token)の平均2.6倍の削減を実現している。
論文 参考訳(メタデータ) (2024-10-04T01:11:09Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Efficient LLM Inference with Kcache [3.945956673130761]
大規模言語モデル(LLM)はAIアプリケーションに大きな影響を与えている。
KVキャッシュ技術は業界で最も広く使われている技術の一つである。
本稿では,LLM 推論プロセスにおけるメモリボトルネック問題を軽減するため,新しい KCache 手法を提案する。
論文 参考訳(メタデータ) (2024-04-28T03:11:42Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。