論文の概要: ObjectCache: Layerwise Object-Storage Retrieval for KV Cache Reuse
- arxiv url: http://arxiv.org/abs/2605.22850v1
- Date: Sat, 16 May 2026 16:48:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:19.992331
- Title: ObjectCache: Layerwise Object-Storage Retrieval for KV Cache Reuse
- Title(参考訳): ObjectCache: KVキャッシュ再利用のためのレイヤワイズオブジェクトストレージ検索
- Authors: Yu Zhu, Aditya Dhakal, Yunming Xiao, Dejan Milojicic, Gustavo Alonso,
- Abstract要約: プリフィックスKVキャッシュはLLMサービスにおいて重要なメカニズムとなっている。
現在のシステムは、KVキャッシュをリモートDRAMプールに保持し、サービスクラスタのサイズとコストを増大させる。
ストレージサーバがKVキャッシュデータをGPUが消費する順番に配信するように,ストレージプロトコルと転送スケジュールを共同設計するObjectCacheを提案する。
- 参考スコア(独自算出の注目度): 6.734363135861142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prefix KV caching has become a key mechanism in LLM serving: it reduces time to first token (TTFT) by avoiding redundant computation across requests that share a prefix (i.e., the system prompt). However, the accumulated KV cache is often larger than what GPU memory and local DRAM can hold. To preserve latency, current systems keep the KV cache in remote DRAM pools, increasing serving-cluster size and cost. In this paper, we explore a different approach: storing the KV cache in S3-compatible object storage so that capacity is no longer the constraint, while minimizing the impact on TTFT. We propose ObjectCache, which co-designs the storage protocol and transfer schedule so that the storage server delivers KV cache data in the order the GPU consumes it, overlapping data transfer with compute across concurrent requests. We prototype ObjectCache on a 100 Gbps RoCE cluster with NIXL (an inference library that abstracts storage and memory), Ceph RGW (an Object Gateway for clusters), and DAOS (an open source storage system). For 64K contexts, common in today's systems, ObjectCache adds only 5.6\% latency over local DRAM; for 4K contexts, where less compute is available to mask transfer, ObjectCache adds 56--75\,ms over the optimal local layerwise baseline. Under shared bandwidth caps, our scheduler reduces added TTFT by 1.2--1.8x compared with equal bandwidth sharing.
- Abstract(参考訳): プレフィックスKVキャッシュは、プレフィックスを共有するリクエスト(つまりシステムプロンプト)間で冗長な計算を避けることで、最初のトークン(TTFT)に時間を短縮する。
しかし、蓄積されたKVキャッシュはGPUメモリやローカルDRAMが保持できるものよりも大きいことが多い。
レイテンシを維持するため、現在のシステムはKVキャッシュをリモートDRAMプールに保持し、サービスクラスタのサイズとコストを増大させる。
本稿では, TTFTへの影響を最小限に抑えつつ, 容量がもはや制約にならないように, KVキャッシュをS3互換オブジェクトストレージに格納するアプローチについて検討する。
我々は、ストレージプロトコルと転送スケジュールを共同設計し、ストレージサーバがKVキャッシュデータをGPUが消費する順番に提供し、同時要求にまたがる計算と重なるデータ転送を実現するObjectCacheを提案する。
NIXL(ストレージとメモリを抽象化する推論ライブラリ)、Ceph RGW(クラスタのObject Gateway)、DAOS(オープンソースストレージシステム)を備えた100GbpsのRoCEクラスタ上でObjectCacheをプロトタイプしました。
今日のシステムで一般的な64Kコンテキストでは、ObjectCacheはローカルDRAMに5.6\%のレイテンシしか追加しない。4Kコンテキストでは、マスク転送の計算量が少ない。ObjectCacheは、最適なローカル層幅ベースラインに56-75\,msを追加する。共有帯域幅上限の下で、スケジューラは、同等帯域幅共有と比較してTTFTを1.2-1.8x削減する。
関連論文リスト
- PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - AdaptCache: KV Cache Native Storage Hierarchy for Low-Delay and High-Quality Language Model Serving [24.3795571741572]
大規模言語モデル(LLM)アプリケーションは、チャット履歴やドキュメントなど、以前処理されたコンテキストをしばしば再利用する。
既存のLLMサービスシステムは、処理されたコンテキストのKVキャッシュを格納し、新しい要求がコンテキストを再利用するときに対応するKVキャッシュをロードすることで、そのような冗長な計算に対処する。
論文 参考訳(メタデータ) (2025-08-28T00:46:51Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - Compute Or Load KV Cache? Why Not Both? [6.982874528357836]
Cakeは計算資源とI/Oリソースを並列に最適に利用する新しいKVキャッシュローディングシステムである。
Cakeは、計算のみの手法やI/Oのみの手法と比較して、TTFT(Time to First Token)の平均2.6倍の削減を実現している。
論文 参考訳(メタデータ) (2024-10-04T01:11:09Z) - MiniCache: KV Cache Compression in Depth Dimension for Large Language Models [48.03117580340151]
キーバリュー(KV)キャッシュは、以前に生成されたトークンのキー値状態を格納する。
KVキャッシュのサイズはシーケンス長とともに線形に増加し、長いコンテキスト入力と広範囲なシーケンス生成を必要とするアプリケーションの課題を提起する。
レイヤ間のKVキャッシュを,新しい奥行きの観点から圧縮する,MiniCacheという,シンプルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T09:43:52Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving [31.766738294505767]
CacheGenは、大きな言語モデルのための高速なコンテキストローディングモジュールである。
カスタムテンソルエンコーダを使用して、KVキャッシュをコンパクトなビットストリーム表現にエンコードする。
KVキャッシュの異なる部分の圧縮レベルを適用して、利用可能な帯域幅の変化に対処する。
論文 参考訳(メタデータ) (2023-10-11T07:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。