Fugu-MT 論文翻訳(概要): Category-Aware Semantic Caching for Heterogeneous LLM Workloads

論文の概要: Category-Aware Semantic Caching for Heterogeneous LLM Workloads

arxiv url: http://arxiv.org/abs/2510.26835v1
Date: Wed, 29 Oct 2025 19:59:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-03 17:52:15.859248
Title: Category-Aware Semantic Caching for Heterogeneous LLM Workloads
Title（参考訳）: 不均一LLM作業負荷に対するカテゴリー対応セマンティックキャッシング
Authors: Chen Wang, Xunzhuo Liu, Yue Zhu, Alaa Youssef, Priya Nagpurkar, Huamin Chen,
Abstract要約: LLMサービスシステムは、異なるカテゴリが異なる特徴を示す異種クエリワークロードを処理する。コードクエリは埋め込みスペースに密集し、会話クエリはわずかに分散する。高繰り返しのカテゴリーは40-60%のヒット率、低繰り返しまたは揮発性のカテゴリは5-15%のヒット率を達成する。
参考スコア（独自算出の注目度）: 3.053013944333676
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LLM serving systems process heterogeneous query workloads where different categories exhibit different characteristics. Code queries cluster densely in embedding space while conversational queries distribute sparsely. Content staleness varies from minutes (stock data) to months (code patterns). Query repetition patterns range from power-law (code) to uniform (conversation), producing long tail cache hit rate distributions: high-repetition categories achieve 40-60% hit rates while low-repetition or volatile categories achieve 5-15% hit rates. Vector databases must exclude the long tail because remote search costs (30ms) require 15--20% hit rates to break even, leaving 20-30% of production traffic uncached. Uniform cache policies compound this problem: fixed thresholds cause false positives in dense spaces and miss valid paraphrases in sparse spaces; fixed TTLs waste memory or serve stale data. This paper presents category-aware semantic caching where similarity thresholds, TTLs, and quotas vary by query category. We present a hybrid architecture separating in-memory HNSW search from external document storage, reducing miss cost from 30ms to 2ms. This reduction makes low-hit-rate categories economically viable (break-even at 3-5% versus 15-20%), enabling cache coverage across the entire workload distribution. Adaptive load-based policies extend this framework to respond to downstream model load, dynamically adjusting thresholds and TTLs to reduce traffic to overloaded models by 9-17% in theoretical projections.
Abstract（参考訳）: LLMサービスシステムは、異なるカテゴリが異なる特徴を示す異種クエリワークロードを処理する。コードクエリは埋め込みスペースに密集し、会話クエリはわずかに分散する。コンテンツの安定度は、数分(ストックデータ)から数ヶ月(コードパターン)まで様々である。クエリの繰り返しパターンは、パワーロー(コード)から均一(会話)まで様々で、長い尾のキャッシュヒット率の分布を生成する: 高い繰り返しカテゴリは40-60%のヒット率、低い繰り返しまたは揮発性カテゴリは5-15%のヒット率を達成する。遠隔検索のコスト(30ms)が15～20%のヒット率を必要とするため、ベクターデータベースはロングテールを除外しなければならない。固定しきい値が密接な空間で偽陽性を引き起こし、スパース空間で有効なパラフレーズを見逃す;固定TTLはメモリを浪費するか、古いデータを提供する。本稿では、類似度閾値、TTL、クォータがクエリカテゴリによって異なるカテゴリ対応セマンティックキャッシングを提案する。メモリ内HNSW検索を外部文書ストレージから分離し,30msから2msのミスコストを削減したハイブリッドアーキテクチャを提案する。この削減により、低ヒットレートのカテゴリが経済的に有効(3～5%対15～20%)になり、ワークロード全体のキャッシュカバレッジが可能になる。適応的な負荷ベースのポリシーは、このフレームワークを拡張して、下流モデルの負荷に応答し、しきい値とTTLを動的に調整し、理論予測においてオーバーロードされたモデルへのトラフィックを9-17%削減する。

論文の概要: Category-Aware Semantic Caching for Heterogeneous LLM Workloads

関連論文リスト