論文の概要: Category-Aware Semantic Caching for Heterogeneous LLM Workloads
- arxiv url: http://arxiv.org/abs/2510.26835v1
- Date: Wed, 29 Oct 2025 19:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.859248
- Title: Category-Aware Semantic Caching for Heterogeneous LLM Workloads
- Title(参考訳): 不均一LLM作業負荷に対するカテゴリー対応セマンティックキャッシング
- Authors: Chen Wang, Xunzhuo Liu, Yue Zhu, Alaa Youssef, Priya Nagpurkar, Huamin Chen,
- Abstract要約: LLMサービスシステムは、異なるカテゴリが異なる特徴を示す異種クエリワークロードを処理する。
コードクエリは埋め込みスペースに密集し、会話クエリはわずかに分散する。
高繰り返しのカテゴリーは40-60%のヒット率、低繰り返しまたは揮発性のカテゴリは5-15%のヒット率を達成する。
- 参考スコア(独自算出の注目度): 3.053013944333676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM serving systems process heterogeneous query workloads where different categories exhibit different characteristics. Code queries cluster densely in embedding space while conversational queries distribute sparsely. Content staleness varies from minutes (stock data) to months (code patterns). Query repetition patterns range from power-law (code) to uniform (conversation), producing long tail cache hit rate distributions: high-repetition categories achieve 40-60% hit rates while low-repetition or volatile categories achieve 5-15% hit rates. Vector databases must exclude the long tail because remote search costs (30ms) require 15--20% hit rates to break even, leaving 20-30% of production traffic uncached. Uniform cache policies compound this problem: fixed thresholds cause false positives in dense spaces and miss valid paraphrases in sparse spaces; fixed TTLs waste memory or serve stale data. This paper presents category-aware semantic caching where similarity thresholds, TTLs, and quotas vary by query category. We present a hybrid architecture separating in-memory HNSW search from external document storage, reducing miss cost from 30ms to 2ms. This reduction makes low-hit-rate categories economically viable (break-even at 3-5% versus 15-20%), enabling cache coverage across the entire workload distribution. Adaptive load-based policies extend this framework to respond to downstream model load, dynamically adjusting thresholds and TTLs to reduce traffic to overloaded models by 9-17% in theoretical projections.
- Abstract(参考訳): LLMサービスシステムは、異なるカテゴリが異なる特徴を示す異種クエリワークロードを処理する。
コードクエリは埋め込みスペースに密集し、会話クエリはわずかに分散する。
コンテンツの安定度は、数分(ストックデータ)から数ヶ月(コードパターン)まで様々である。
クエリの繰り返しパターンは、パワーロー(コード)から均一(会話)まで様々で、長い尾のキャッシュヒット率の分布を生成する: 高い繰り返しカテゴリは40-60%のヒット率、低い繰り返しまたは揮発性カテゴリは5-15%のヒット率を達成する。
遠隔検索のコスト(30ms)が15~20%のヒット率を必要とするため、ベクターデータベースはロングテールを除外しなければならない。
固定しきい値が密接な空間で偽陽性を引き起こし、スパース空間で有効なパラフレーズを見逃す;固定TTLはメモリを浪費するか、古いデータを提供する。
本稿では、類似度閾値、TTL、クォータがクエリカテゴリによって異なるカテゴリ対応セマンティックキャッシングを提案する。
メモリ内HNSW検索を外部文書ストレージから分離し,30msから2msのミスコストを削減したハイブリッドアーキテクチャを提案する。
この削減により、低ヒットレートのカテゴリが経済的に有効(3~5%対15~20%)になり、ワークロード全体のキャッシュカバレッジが可能になる。
適応的な負荷ベースのポリシーは、このフレームワークを拡張して、下流モデルの負荷に応答し、しきい値とTTLを動的に調整し、理論予測においてオーバーロードされたモデルへのトラフィックを9-17%削減する。
関連論文リスト
- vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - MeanCache: User-Centric Semantic Caching for LLM Web Services [8.350378532274405]
キャッシングは、繰り返しクエリの推論コストを削減するための自然なソリューションである。
本稿では,LLMベースのサービスのためのユーザ中心セマンティックキャッシュであるMeanCacheを紹介する。
MeanCacheは、セマンティックに類似したクエリを特定して、キャッシュヒットやミスを判定する。
論文 参考訳(メタデータ) (2024-03-05T06:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。