論文の概要: An Ensemble Embedding Approach for Improving Semantic Caching Performance in LLM-based Systems
- arxiv url: http://arxiv.org/abs/2507.07061v1
- Date: Tue, 08 Jul 2025 09:20:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.706011
- Title: An Ensemble Embedding Approach for Improving Semantic Caching Performance in LLM-based Systems
- Title(参考訳): LLMシステムにおけるセマンティックキャッシング性能向上のためのエンサンブル埋め込み手法
- Authors: Shervin Ghaffari, Zohre Bahranifard, Mohammad Akbari,
- Abstract要約: 本稿では,複数の埋め込みモデルを訓練されたメタエンコーダを通じて組み合わせ,意味的類似性の検出を改善するアンサンブル埋め込み手法を提案する。
提案手法をQuora Question Pairsデータセットを用いて評価し,キャッシュヒット率,キャッシュミス率,トークンセーブ,応答時間を測定した。
- 参考スコア(独自算出の注目度): 4.364576564103288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic caching enhances the efficiency of large language model (LLM) systems by identifying semantically similar queries, storing responses once, and serving them for subsequent equivalent requests. However, existing semantic caching frameworks rely on single embedding models for query representation, which limits their ability to capture the diverse semantic relationships present in real-world query distributions. This paper presents an ensemble embedding approach that combines multiple embedding models through a trained meta-encoder to improve semantic similarity detection in LLM caching systems. We evaluate our method using the Quora Question Pairs (QQP) dataset, measuring cache hit ratios, cache miss ratios, token savings, and response times. Our ensemble approach achieves a 92\% cache hit ratio for semantically equivalent queries while maintaining an 85\% accuracy in correctly rejecting non-equivalent queries as cache misses. These results demonstrate that ensemble embedding methods significantly outperform single-model approaches in distinguishing between semantically similar and dissimilar queries, leading to more effective caching performance and reduced computational overhead in LLM-based systems.
- Abstract(参考訳): セマンティックキャッシュは、意味的に類似したクエリを識別し、応答を一度保存し、それに続く等価な要求に対してそれらを提供することで、大きな言語モデル(LLM)システムの効率を高める。
しかし、既存のセマンティックキャッシングフレームワークは、クエリ表現のための単一の埋め込みモデルに依存しており、現実世界のクエリ分布に存在する多様なセマンティックな関係をキャプチャする能力を制限する。
本稿では,LLMキャッシングシステムにおける意味的類似性検出を改善するために,訓練されたメタエンコーダを通じて複数の埋め込みモデルを組み合わせたアンサンブル埋め込み手法を提案する。
提案手法はQuora Question Pairs(QQP)データセットを用いて,キャッシュヒット率,キャッシュミス率,トークンセーブ,応答時間を測定する。
我々のアンサンブルアプローチは、キャッシュミス時に等価でないクエリを正しく拒否する場合、セマンティックに等価なクエリに対して、92 %のキャッシュヒット比を達成しつつ、85 %の精度を維持しながら達成する。
これらの結果から, アンサンブル埋め込み手法は, セマンティック類似クエリと異種クエリの区別において, 単一モデルアプローチを著しく上回り, キャッシング性能が向上し, 計算オーバーヘッドの低減が図られた。
関連論文リスト
- ContextCache: Context-Aware Semantic Cache for Multi-Turn Queries in Large Language Models [33.729482204460815]
このデモでは、マルチターン対話のためのコンテキスト対応セマンティックキャッシュシステムであるContextCacheを紹介した。
ContextCacheは、2段階の検索アーキテクチャを使用し、まず現在のクエリ上でベクトルベースの検索を実行し、潜在的なマッチングを識別し、その後、正確なコンテキストマッチングのための自己認識機構を通じて、現在の対話表現と過去の対話表現を統合する。
キャッシュされた応答は、直接LLM呼び出しの約10倍のレイテンシを示し、会話アプリケーションに対する計算コストの大幅な削減を可能にする。
論文 参考訳(メタデータ) (2025-06-28T07:25:12Z) - vCache: Verified Semantic Prompt Caching [75.87215136638828]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - MeanCache: User-Centric Semantic Caching for LLM Web Services [8.350378532274405]
キャッシングは、繰り返しクエリの推論コストを削減するための自然なソリューションである。
本稿では,LLMベースのサービスのためのユーザ中心セマンティックキャッシュであるMeanCacheを紹介する。
MeanCacheは、セマンティックに類似したクエリを特定して、キャッシュヒットやミスを判定する。
論文 参考訳(メタデータ) (2024-03-05T06:23:50Z) - LLMs for Test Input Generation for Semantic Caches [1.8628177380024746]
大規模言語モデル(LLM)は、最先端のセマンティック機能をソフトウェアシステムに追加することを可能にする。
規模によっては、何千ものユーザーへのサービス提供コストは、ユーザーエクスペリエンスにも大きく影響します。
本稿では、構造化されていない文書から類似した質問を生成するテスト入力生成にLLMを使用するアプローチであるVaryGenを提案する。
論文 参考訳(メタデータ) (2024-01-16T06:16:33Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。