論文の概要: TokenLake: A Unified Segment-level Prefix Cache Pool for Fine-grained Elastic Long-Context LLM Serving
- arxiv url: http://arxiv.org/abs/2508.17219v1
- Date: Sun, 24 Aug 2025 05:45:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.409475
- Title: TokenLake: A Unified Segment-level Prefix Cache Pool for Fine-grained Elastic Long-Context LLM Serving
- Title(参考訳): TokenLake: きめ細かいElastic Long-Context LLMサービングのための統一セグメントレベルのプリフィックスキャッシュプール
- Authors: Bingyang Wu, Zili Zhang, Yinmin Zhong, Guanzhe Huang, Yibo Zhu, Xuanzhe Liu, Xin Jin,
- Abstract要約: セグメントレベルのプレフィックス・キャッシュ・プールであるTokenLakeを提案する。
キャッシュインターフェースを使用して、リクエストのクエリテンソル、プレフィックス、キャッシュ対応操作を公開します。
TokenLakeはスループットを最大2.6$times$と2.0$times$に改善し、ヒット率を2.0$times$と2.1$times$に向上させることができる。
- 参考スコア(独自算出の注目度): 12.80179556886128
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Prefix caching is crucial to accelerate multi-turn interactions and requests with shared prefixes. At the cluster level, existing prefix caching systems are tightly coupled with request scheduling to optimize cache efficiency and computation performance together, leading to load imbalance, data redundancy, and memory fragmentation of caching systems across instances. To address these issues, memory pooling is promising to shield the scheduler from the underlying cache management so that it can focus on the computation optimization. However, because existing prefix caching systems only transfer increasingly longer prefix caches between instances, they cannot achieve low-latency memory pooling. To address these problems, we propose a unified segment-level prefix cache pool, TokenLake. It uses a declarative cache interface to expose requests' query tensors, prefix caches, and cache-aware operations to TokenLake for efficient pooling. Powered by this abstraction, TokenLake can manage prefix cache at the segment level with a heavy-hitter-aware load balancing algorithm to achieve better cache load balance, deduplication, and defragmentation. TokenLake also transparently minimizes the communication volume of query tensors and new caches. Based on TokenLake, the scheduler can schedule requests elastically by using existing techniques without considering prefix cache management. Evaluations on real-world workloads show that TokenLake can improve throughput by up to 2.6$\times$ and 2.0$\times$ and boost hit rate by 2.0$\times$ and 2.1$\times$, compared to state-of-the-art cache-aware routing and cache-centric PD-disaggregation solutions, respectively.
- Abstract(参考訳): プレフィックスキャッシュは、共有プレフィックスによるマルチターンインタラクションとリクエストの高速化に不可欠である。
クラスタレベルでは、既存のプレフィックスキャッシュシステムはリクエストスケジューリングと密結合され、キャッシュ効率と計算性能を最適化し、負荷不均衡、データ冗長性、インスタンス間のキャッシュシステムのメモリ断片化につながる。
これらの問題に対処するため、メモリプーリングはスケジューラを基礎となるキャッシュ管理から保護し、計算の最適化に集中することを約束している。
しかし、既存のプレフィックスキャッシュシステムはインスタンス間でより長いプレフィックスキャッシュを転送するだけなので、低レイテンシメモリプールを実現することはできない。
これらの問題に対処するために、セグメントレベルのプレフィックスキャッシュプールであるTokenLakeを提案する。
宣言型キャッシュインターフェースを使用して、リクエストのクエリテンソル、プレフィックスキャッシュ、キャッシュ対応操作をTokenLakeに公開し、効率的なプールを行う。
この抽象化によって、TokenLakeはセグメントレベルでプレフィックスキャッシュを管理することができ、より優れたキャッシュロードバランシング、重複解消、デフラグメンテーションを実現している。
TokenLakeはまた、クエリテンソルと新しいキャッシュの通信量を透過的に最小化する。
TokenLakeをベースとして、スケジューラはプレフィックスキャッシュ管理を考慮せずに、既存の技術を使ってリクエストを弾性的にスケジュールすることができる。
実世界のワークロードの評価によると、TokenLakeはスループットを最大2.6$\times$と2.0$\times$に改善し、ヒット率を2.0$\times$と2.1$\times$に向上させることができる。
関連論文リスト
- vCache: Verified Semantic Prompt Caching [75.87215136638828]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - InstCache: A Predictive Cache for LLM Serving [6.076957323090607]
キャッシング技術は、大規模言語モデル推論エンジンのパフォーマンスを最適化する機会を提供する。
命令の内容と長さのばらつきが大きいため、同じ命令が短時間のウィンドウ内で再帰することは稀である。
LLMサービスシステムの予測キャッシュ機構であるInstCacheを提案する。
論文 参考訳(メタデータ) (2024-11-21T03:52:41Z) - EPIC: Efficient Position-Independent Caching for Serving Large Language Models [19.510078997414606]
キャッシングは、リクエスト間でキーバリューベクトルを再利用することで、パフォーマンスを向上させる。
既存のコンテキストキャッシュでは、リクエストにまたがる正確なプレフィックスが必要である。
位置独立キャッシング (PIC) を導入し, プレフィックスによらず KV ベクトルのモジュラー再利用を可能にする。
また、新しいLegoLinkアルゴリズムを取り入れたサービスシステムEPICも導入しています。
論文 参考訳(メタデータ) (2024-10-20T08:42:29Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - LQoCo: Learning to Optimize Cache Capacity Overloading in Storage
Systems [17.49411699184401]
キャッシュはストレージシステムにおけるハイパフォーマンスと安定したパフォーマンスを維持する上で重要な役割を担います。
既存のルールベースのキャッシュ管理メソッドは、エンジニアの手動構成と相まって、頻繁にキャッシュをオーバーロードする。
キャッシュ帯域幅を適応的に制御できるLQoCoという,軽量な学習ベースのキャッシュ帯域幅制御手法を提案する。
論文 参考訳(メタデータ) (2022-03-21T13:53:22Z) - Reinforcement Learning for Caching with Space-Time Popularity Dynamics [61.55827760294755]
キャッシングは次世代ネットワークにおいて重要な役割を果たすと想定されている。
コンテンツをインテリジェントにプリフェッチし、保存するためには、キャッシュノードは、何といつキャッシュするかを学ばなければならない。
本章では、近似キャッシングポリシー設計のための多目的強化学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-19T01:23:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。