論文の概要: Category-Aware Semantic Caching for Heterogeneous LLM Workloads
- arxiv url: http://arxiv.org/abs/2510.26835v1
- Date: Wed, 29 Oct 2025 19:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.859248
- Title: Category-Aware Semantic Caching for Heterogeneous LLM Workloads
- Title(参考訳): 不均一LLM作業負荷に対するカテゴリー対応セマンティックキャッシング
- Authors: Chen Wang, Xunzhuo Liu, Yue Zhu, Alaa Youssef, Priya Nagpurkar, Huamin Chen,
- Abstract要約: LLMサービスシステムは、異なるカテゴリが異なる特徴を示す異種クエリワークロードを処理する。
コードクエリは埋め込みスペースに密集し、会話クエリはわずかに分散する。
高繰り返しのカテゴリーは40-60%のヒット率、低繰り返しまたは揮発性のカテゴリは5-15%のヒット率を達成する。
- 参考スコア(独自算出の注目度): 3.053013944333676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM serving systems process heterogeneous query workloads where different categories exhibit different characteristics. Code queries cluster densely in embedding space while conversational queries distribute sparsely. Content staleness varies from minutes (stock data) to months (code patterns). Query repetition patterns range from power-law (code) to uniform (conversation), producing long tail cache hit rate distributions: high-repetition categories achieve 40-60% hit rates while low-repetition or volatile categories achieve 5-15% hit rates. Vector databases must exclude the long tail because remote search costs (30ms) require 15--20% hit rates to break even, leaving 20-30% of production traffic uncached. Uniform cache policies compound this problem: fixed thresholds cause false positives in dense spaces and miss valid paraphrases in sparse spaces; fixed TTLs waste memory or serve stale data. This paper presents category-aware semantic caching where similarity thresholds, TTLs, and quotas vary by query category. We present a hybrid architecture separating in-memory HNSW search from external document storage, reducing miss cost from 30ms to 2ms. This reduction makes low-hit-rate categories economically viable (break-even at 3-5% versus 15-20%), enabling cache coverage across the entire workload distribution. Adaptive load-based policies extend this framework to respond to downstream model load, dynamically adjusting thresholds and TTLs to reduce traffic to overloaded models by 9-17% in theoretical projections.
- Abstract(参考訳): LLMサービスシステムは、異なるカテゴリが異なる特徴を示す異種クエリワークロードを処理する。
コードクエリは埋め込みスペースに密集し、会話クエリはわずかに分散する。
コンテンツの安定度は、数分(ストックデータ)から数ヶ月(コードパターン)まで様々である。
クエリの繰り返しパターンは、パワーロー(コード)から均一(会話)まで様々で、長い尾のキャッシュヒット率の分布を生成する: 高い繰り返しカテゴリは40-60%のヒット率、低い繰り返しまたは揮発性カテゴリは5-15%のヒット率を達成する。
遠隔検索のコスト(30ms)が15~20%のヒット率を必要とするため、ベクターデータベースはロングテールを除外しなければならない。
固定しきい値が密接な空間で偽陽性を引き起こし、スパース空間で有効なパラフレーズを見逃す;固定TTLはメモリを浪費するか、古いデータを提供する。
本稿では、類似度閾値、TTL、クォータがクエリカテゴリによって異なるカテゴリ対応セマンティックキャッシングを提案する。
メモリ内HNSW検索を外部文書ストレージから分離し,30msから2msのミスコストを削減したハイブリッドアーキテクチャを提案する。
この削減により、低ヒットレートのカテゴリが経済的に有効(3~5%対15~20%)になり、ワークロード全体のキャッシュカバレッジが可能になる。
適応的な負荷ベースのポリシーは、このフレームワークを拡張して、下流モデルの負荷に応答し、しきい値とTTLを動的に調整し、理論予測においてオーバーロードされたモデルへのトラフィックを9-17%削減する。
関連論文リスト
- Randomization Boosts KV Caching, Learning Balances Query Load: A Joint Perspective [31.67506313325633]
KVキャッシュは、キー値(KV)ペアを以前のクエリから再利用することで、Large Language Model(LLM)推論を高速化する技術である。
デフォルトのLeast recently Used (LRU)消去アルゴリズムは、動的オンラインクエリの到着に苦労する。
我々は、KVキャッシュ消去とクエリルーティングのコアトレードオフをキャプチャする最初の統一数学的モデルを与える。
論文 参考訳(メタデータ) (2026-01-26T22:20:59Z) - Inferring Causal Relationships to Improve Caching for Clients with Correlated Requests: Applications to VR [8.329456268842227]
Least recently Used (LRU) や Least Frequently Used (LFU) のようなキャッシュポリシは、特定の要求パターンの下でうまく機能する。
我々は、クライアント要求の因果関係を動的に推論し、適応し、消去を最適化する新しいオンラインキャッシュポリシーLFRUを提案する。
論文 参考訳(メタデータ) (2025-12-09T14:10:41Z) - LLM Cache Bandit Revisited: Addressing Query Heterogeneity for Cost-Effective LLM Inference [87.57291812372848]
我々は、最適なキャッシュ選択をknapsack問題として扱い、計算オーバーヘッドとキャッシュ更新のバランスをとるために蓄積ベースの戦略を用いる。
我々のアルゴリズムの後悔は$O(sqrtMNT)$boundを達成し、バークレーの$O(MNsqrtT)$と比較して$sqrtMN$の係数を改善することを証明している。
問題に依存したバウンダリも提供しています。
論文 参考訳(メタデータ) (2025-09-19T01:39:08Z) - Semantic Caching for Low-Cost LLM Serving: From Offline Learning to Online Adaptation [54.61034867177997]
キャッシング推論応答は、大きな言語モデルに他の前方を通さずに、それらを検索することができる。
従来の正確なキャッシュは、クエリ間のセマンティックな類似性を見落とし、不要な再計算をもたらす。
本稿では,未知のクエリおよびコスト分布下でのセマンティックキャッシュ消去のための,原則的,学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-11T06:53:27Z) - PentaRAG: Large-Scale Intelligent Knowledge Retrieval for Enterprise LLM Applications [5.4838799162708245]
我々はPentaRAGを紹介した。PentaRAGは5層モジュールで、各クエリを2つのインスタントキャッシュにルーティングする。
我々はPentaRAGがクエリ毎の平均GPU時間を0.248秒に削減したことを示す。
その結果、階層型ルーティング戦略は生産レベルのRAGシステムにおいて、鮮度、速度、効率性を同時に提供できることが示されている。
論文 参考訳(メタデータ) (2025-06-18T07:54:53Z) - KVCache Cache in the Wild: Characterizing and Optimizing KVCache Cache at a Large Cloud Provider [15.532112534717262]
大規模言語モデル(LLM)の実現はクラウドプロバイダにとって重要であり、各要求処理後の中間結果(KV$)をキャッシュすることで、スループットとレイテンシが大幅に向上する。
我々は、主要なLLMサービスプロバイダの1つから、KV$ワークロードパターンを初めて体系的に評価した。
本稿では,特にキャッシュ容量の制限により,実世界のトレース下でのサービス性能を向上させる,ワークロード対応のキャッシュ消去ポリシーを提案する。
論文 参考訳(メタデータ) (2025-06-03T08:51:38Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - MeanCache: User-Centric Semantic Caching for LLM Web Services [8.350378532274405]
キャッシングは、繰り返しクエリの推論コストを削減するための自然なソリューションである。
本稿では,LLMベースのサービスのためのユーザ中心セマンティックキャッシュであるMeanCacheを紹介する。
MeanCacheは、セマンティックに類似したクエリを特定して、キャッシュヒットやミスを判定する。
論文 参考訳(メタデータ) (2024-03-05T06:23:50Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。