論文の概要: GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching
- arxiv url: http://arxiv.org/abs/2411.05276v2
- Date: Tue, 03 Dec 2024 21:40:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:04:38.717560
- Title: GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching
- Title(参考訳): GPTセマンティックキャッシュ:セマンティック埋め込みキャッシングによるLCMコストとレイテンシ低減
- Authors: Sajal Regmi, Chetan Phakami Pun,
- Abstract要約: GPT Semantic Cacheは、インメモリストレージ(Redis)におけるクエリ埋め込みのセマンティックキャッシュを利用する方法である。
ユーザクエリを格納することにより、セマンティックに類似した質問を効率よく識別し、大規模言語モデルに対する冗長なAPI呼び出しを伴わずに、事前生成された応答を検索できる。
実験の結果、GPT Semantic CacheはさまざまなクエリカテゴリでAPI呼び出しを最大68.8%削減し、キャッシュヒット率は61.6%から68.8%に向上した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large Language Models (LLMs), such as GPT, have revolutionized artificial intelligence by enabling nuanced understanding and generation of human-like text across a wide range of applications. However, the high computational and financial costs associated with frequent API calls to these models present a substantial bottleneck, especially for applications like customer service chatbots that handle repetitive queries. In this paper, we introduce GPT Semantic Cache, a method that leverages semantic caching of query embeddings in in-memory storage (Redis). By storing embeddings of user queries, our approach efficiently identifies semantically similar questions, allowing for the retrieval of pre-generated responses without redundant API calls to the LLM. This technique achieves a notable reduction in operational costs while significantly enhancing response times, making it a robust solution for optimizing LLM-powered applications. Our experiments demonstrate that GPT Semantic Cache reduces API calls by up to 68.8% across various query categories, with cache hit rates ranging from 61.6% to 68.8%. Additionally, the system achieves high accuracy, with positive hit rates exceeding 97%, confirming the reliability of cached responses. This technique not only reduces operational costs, but also improves response times, enhancing the efficiency of LLM-powered applications.
- Abstract(参考訳): GPTのような大規模言語モデル(LLM)は、広範囲のアプリケーションにまたがって、微妙な理解と人間のようなテキストの生成を可能にすることによって、人工知能に革命をもたらした。
しかしながら、これらのモデルに対する頻繁なAPI呼び出しに関連する高い計算コストと財政コストは、特に反復的なクエリを処理するカスタマーサービスチャットボットのようなアプリケーションにおいて、重大なボトルネックをもたらします。
本稿では,クエリ埋め込みのセマンティックキャッシュをインメモリストレージ(Redis)に組み込む手法であるGPT Semantic Cacheを紹介する。
ユーザクエリの埋め込みを格納することにより,セマンティックに類似した質問を効率よく識別し,LLMへの冗長なAPI呼び出しを伴わずに,事前に生成した応答を検索することができる。
この技術は、応答時間を大幅に向上させながら、運用コストの顕著な削減を実現し、LCMを動力とするアプリケーションを最適化するための堅牢なソリューションとなる。
我々の実験によると、GPT Semantic Cacheは様々なクエリカテゴリでAPI呼び出しを最大68.8%削減し、キャッシュヒット率は61.6%から68.8%である。
さらに、正のヒット率が97%を超え、キャッシュされた応答の信頼性を確認することにより、高い精度を達成する。
この技術は、運用コストを削減するだけでなく、応答時間も改善し、LLM駆動アプリケーションの効率を向上する。
関連論文リスト
- EchoLM: Accelerating LLM Serving with Real-time Knowledge Distillation [19.399404969760017]
本稿では,過去の要求を例として活用して応答生成をガイドする,コンテキスト内キャッシングシステムであるEchoLMを紹介する。
EchoLMは1.4-5.9倍のスループット向上を実現し,応答品質を損なうことなく28-71%のレイテンシ削減を実現した。
論文 参考訳(メタデータ) (2025-01-22T07:52:38Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - SCALM: Towards Semantic Caching for Automated Chat Services with Large Language Models [15.742472622602557]
セマンティック分析を重視し,重要なキャッシュエントリやパターンを識別する新しいキャッシュアーキテクチャであるSCALMを提案する。
評価の結果,SCALMはキャッシュヒット率を増大させ,LLMChatサービスの運用コストを低減させることがわかった。
論文 参考訳(メタデータ) (2024-05-24T08:16:22Z) - MeanCache: User-Centric Semantic Cache for Large Language Model Based Web Services [8.350378532274405]
キャッシングは、繰り返しクエリの推論コストを削減するための自然なソリューションである。
本稿では,LLMベースのサービスのためのユーザ中心セマンティックキャッシュであるMeanCacheを紹介する。
MeanCacheは、セマンティックに類似したクエリを特定して、キャッシュヒットやミスを判定する。
論文 参考訳(メタデータ) (2024-03-05T06:23:50Z) - Anchor-based Large Language Models [33.86392289481657]
本研究ではアンカーベースの自己アテンションネットワーク(AnSAN)とアンカーベースの推論戦略を利用するアンカーベースのLSM(AnLLM)を紹介する。
AnLLMも同様の精度を維持し、最大99%のキー/バリューキャッシュの削減、最大3.5倍の高速推論を実現している。
論文 参考訳(メタデータ) (2024-02-12T12:48:02Z) - LLMs for Test Input Generation for Semantic Caches [1.8628177380024746]
大規模言語モデル(LLM)は、最先端のセマンティック機能をソフトウェアシステムに追加することを可能にする。
規模によっては、何千ものユーザーへのサービス提供コストは、ユーザーエクスペリエンスにも大きく影響します。
本稿では、構造化されていない文書から類似した質問を生成するテスト入力生成にLLMを使用するアプローチであるVaryGenを提案する。
論文 参考訳(メタデータ) (2024-01-16T06:16:33Z) - Cache & Distil: Optimising API Calls to Large Language Models [82.32065572907125]
ジェネレーティブAIツールの大規模デプロイは、ユーザクエリをフルフィルするために、LLM(Large Language Model)に対する高価なAPI呼び出しに依存することが多い。
これらの呼び出しの頻度を縮めるために、より小さな言語モデル(学生)を用いることができる。
この学生は、ユーザー要求の増加に独立して対処する能力が徐々に向上する。
論文 参考訳(メタデータ) (2023-10-20T15:01:55Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。