論文の概要: Semantic Caching for Low-Cost LLM Serving: From Offline Learning to Online Adaptation
- arxiv url: http://arxiv.org/abs/2508.07675v2
- Date: Tue, 12 Aug 2025 02:51:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 12:16:51.42204
- Title: Semantic Caching for Low-Cost LLM Serving: From Offline Learning to Online Adaptation
- Title(参考訳): 低コストLCMのセマンティックキャッシング:オフライン学習からオンライン適応へ
- Authors: Xutong Liu, Baran Atalar, Xiangxiang Dai, Jinhang Zuo, Siwei Wang, John C. S. Lui, Wei Chen, Carlee Joe-Wong,
- Abstract要約: キャッシング推論応答は、大きな言語モデルに他の前方を通さずに、それらを検索することができる。
従来の正確なキャッシュは、クエリ間のセマンティックな類似性を見落とし、不要な再計算をもたらす。
本稿では,未知のクエリおよびコスト分布下でのセマンティックキャッシュ消去のための,原則的,学習ベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 54.61034867177997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are revolutionizing how users interact with information systems, yet their high inference cost poses serious scalability and sustainability challenges. Caching inference responses, allowing them to be retrieved without another forward pass through the LLM, has emerged as one possible solution. Traditional exact-match caching, however, overlooks the semantic similarity between queries, leading to unnecessary recomputation. Semantic caching addresses this by retrieving responses based on semantic similarity, but introduces a fundamentally different cache eviction problem: one must account for mismatch costs between incoming queries and cached responses. Moreover, key system parameters, such as query arrival probabilities and serving costs, are often unknown and must be learned over time. Existing semantic caching methods are largely ad-hoc, lacking theoretical foundations and unable to adapt to real-world uncertainty. In this paper, we present a principled, learning-based framework for semantic cache eviction under unknown query and cost distributions. We formulate both offline optimization and online learning variants of the problem, and develop provably efficient algorithms with state-of-the-art guarantees. We also evaluate our framework on a synthetic dataset, showing that our proposed algorithms perform matching or superior performance compared with baselines.
- Abstract(参考訳): 大きな言語モデル(LLM)は、ユーザが情報システムと対話する方法に革命をもたらしていますが、その高い推論コストは、深刻なスケーラビリティと持続可能性の課題を引き起こします。
推論応答のキャッシングは、LSMを他の前方通過なしに取り出すことができ、可能な解決策の1つとして現れている。
しかし、従来の正確なキャッシュはクエリ間のセマンティックな類似性を見落とし、不要な再計算をもたらす。
セマンティックキャッシュは、セマンティックな類似性に基づいてレスポンスを検索することでこの問題に対処するが、根本的に異なるキャッシュ消去問題を提起する。
さらに、クエリ到着確率やサービスコストといった重要なシステムパラメータは、しばしば不明であり、時間とともに学習されなければならない。
既存のセマンティックキャッシング手法は概ねアドホックであり、理論的基盤が欠如しており、現実世界の不確実性に適応できない。
本稿では,未知のクエリおよびコスト分布下でのセマンティックキャッシュ消去のための,原則的,学習ベースのフレームワークを提案する。
オフライン最適化とオンライン学習の両方を定式化し、最先端の保証付き証明可能なアルゴリズムを開発する。
また, 提案アルゴリズムは, ベースラインと比較して, マッチングや優れた性能を示すことを示すため, 合成データセット上でのフレームワークの評価を行った。
関連論文リスト
- TweakLLM: A Routing Architecture for Dynamic Tailoring of Cached Responses [1.7079407109348677]
大きな言語モデル(LLM)は、数百万のクエリを毎日処理します。
本稿では,LLMを用いた新しいルーティングアーキテクチャであるTweakLLMを紹介し,キャッシュされた応答を受信プロンプトに動的に適応させる。
論文 参考訳(メタデータ) (2025-07-31T15:50:57Z) - An Ensemble Embedding Approach for Improving Semantic Caching Performance in LLM-based Systems [4.364576564103288]
本稿では,複数の埋め込みモデルを訓練されたメタエンコーダを通じて組み合わせ,意味的類似性の検出を改善するアンサンブル埋め込み手法を提案する。
提案手法をQuora Question Pairsデータセットを用いて評価し,キャッシュヒット率,キャッシュミス率,トークンセーブ,応答時間を測定した。
論文 参考訳(メタデータ) (2025-07-08T09:20:12Z) - Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generationは、大規模な言語モデル幻覚を緩和するための強力なアプローチとして登場した。
既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。
本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:56:20Z) - EPIC: Efficient Position-Independent Caching for Serving Large Language Models [19.510078997414606]
キャッシングは、リクエスト間でキーバリューベクトルを再利用することで、パフォーマンスを向上させる。
既存のコンテキストキャッシュでは、リクエストにまたがる正確なプレフィックスが必要である。
位置独立キャッシング (PIC) を導入し, プレフィックスによらず KV ベクトルのモジュラー再利用を可能にする。
また、新しいLegoLinkアルゴリズムを取り入れたサービスシステムEPICも導入しています。
論文 参考訳(メタデータ) (2024-10-20T08:42:29Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - Reinforcement Learning Based Approaches to Adaptive Context Caching in
Distributed Context Management Systems [0.7559720049837457]
パフォーマンスメトリクス駆動のコンテキストキャッシュは、分散コンテキスト管理システムのスループットとレスポンス時間に大きな影響を与えます。
本稿では,文脈を適応的にキャッシュするための強化学習に基づくアプローチを提案する。
我々の新しいアルゴリズムは、コンテキストクエリとサブクエリを効率的に再利用し、キャッシュされたコンテキストを再利用することを可能にする。
論文 参考訳(メタデータ) (2022-12-22T13:52:53Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。