Fugu-MT 論文翻訳(概要): Privacy-Aware Semantic Cache for Large Language Models

論文の概要: Privacy-Aware Semantic Cache for Large Language Models

arxiv url: http://arxiv.org/abs/2403.02694v1
Date: Tue, 5 Mar 2024 06:23:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 16:01:59.231303
Title: Privacy-Aware Semantic Cache for Large Language Models
Title（参考訳）: 大規模言語モデルのためのプライバシ対応セマンティックキャッシュ
Authors: Waris Gill (1), Mohamed Elidrisi (2), Pallavi Kalapatapu (2), Ali Anwar (3), Muhammad Ali Gulzar (1) ((1) Virginia Tech, USA, (2) Cisco, USA (3) University of Minnesota, Minneapolis, USA)
Abstract要約: キャッシングは、繰り返しクエリの推論コストを削減するための自然なソリューションである。本稿では,大規模言語モデルのためのセマンティックキャッシュであるMeanCacheを紹介する。 MeanCacheは、セマンティックに類似したクエリを特定して、キャッシュヒットやミスを判定する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) like ChatGPT, Google Bard, Claude, and Llama 2 have revolutionized natural language processing and search engine dynamics. However, these models incur exceptionally high computational costs. For instance, GPT-3 consists of 175 billion parameters and inference on these models also demands billions of floating-point operations. Caching is a natural solution to reduce LLM inference costs on repeated queries. However, existing caching methods are incapable of finding semantic similarities among LLM queries, leading to unacceptable false hit-and-miss rates. This paper introduces MeanCache, a semantic cache for LLMs that identifies semantically similar queries to determine cache hit or miss. Using MeanCache, the response to a user's semantically similar query can be retrieved from a local cache rather than re-querying the LLM, thus reducing costs, service provider load, and environmental impact. MeanCache leverages Federated Learning (FL) to collaboratively train a query similarity model in a distributed manner across numerous users without violating privacy. By placing a local cache in each user's device and using FL, MeanCache reduces the latency and costs and enhances model performance, resulting in lower cache false hit rates. Our experiments, benchmarked against the GPTCache, reveal that MeanCache attains an approximately 17% higher F-score and a 20% increase in precision during semantic cache hit-and-miss decisions. Furthermore, MeanCache reduces the storage requirement by 83% and accelerates semantic cache hit-and-miss decisions by 11%, while still surpassing GPTCache.
Abstract（参考訳）: ChatGPT、Google Bard、Claude、Llama 2のような大規模言語モデル(LLM)は、自然言語処理と検索エンジンのダイナミクスに革命をもたらした。しかし、これらのモデルは非常に高い計算コストがかかる。例えば、GPT-3は1750億のパラメータで構成されており、これらのモデルに対する推測もまた数十億の浮動小数点演算を必要とする。キャッシングは、繰り返しクエリのLSM推論コストを削減するための自然なソリューションである。しかし、既存のキャッシュ手法ではLLMクエリ間のセマンティックな類似性を見つけることができず、許容できない偽のヒット・アンド・ミスレートにつながる。本稿では, LLMのセマンティックキャッシュであるMeanCacheを紹介し, セマンティックに類似したクエリを識別し, キャッシュヒットやミスを判定する。 MeanCacheを使用すると、ユーザーのセマンティックに類似したクエリに対する応答は、LLMを再クエリするのではなく、ローカルキャッシュから取得できるため、コスト、サービスプロバイダの負荷、環境への影響を低減できる。 meancacheは連合学習(federated learning, fl)を活用して,プライバシに違反することなく,多数のユーザにわたってクエリ類似性を分散的にトレーニングする。各ユーザのデバイスにローカルキャッシュを配置してFLを使用することで、MeanCacheはレイテンシとコストを低減し、モデルパフォーマンスを向上させる。 GPTCacheに対してベンチマークを行った結果,MeanCacheはFスコアが約17%高く,セマンティックキャッシュのヒットアンドミス判定時に20%精度が向上していることがわかった。さらに、MeanCacheはストレージ要件を83%削減し、セマンティックキャッシュのヒットアンドミス決定を11%高速化すると同時に、GPTCacheを上回っている。

関連論文リスト

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching [75.02865981328509]
キャッシュは、以前計算されたモデル出力をタイムステップで再利用することで計算を減らす。本稿では,動的キャッシュポリシーであるSensitivity-Aware Caching(SenCache)を提案する。 SenCacheは、同様の計算予算の下で、既存のキャッシュメソッドよりも視覚的品質が向上する。
論文参考訳（メタデータ） (2026-02-27T17:36:09Z)
LLM Cache Bandit Revisited: Addressing Query Heterogeneity for Cost-Effective LLM Inference [87.57291812372848]
我々は、最適なキャッシュ選択をknapsack問題として扱い、計算オーバーヘッドとキャッシュ更新のバランスをとるために蓄積ベースの戦略を用いる。我々のアルゴリズムの後悔は$O(sqrtMNT)$boundを達成し、バークレーの$O(MNsqrtT)$と比較して$sqrtMN$の係数を改善することを証明している。問題に依存したバウンダリも提供しています。
論文参考訳（メタデータ） (2025-09-19T01:39:08Z)
Semantic Caching for Low-Cost LLM Serving: From Offline Learning to Online Adaptation [54.61034867177997]
キャッシング推論応答は、大きな言語モデルに他の前方を通さずに、それらを検索することができる。従来の正確なキャッシュは、クエリ間のセマンティックな類似性を見落とし、不要な再計算をもたらす。本稿では,未知のクエリおよびコスト分布下でのセマンティックキャッシュ消去のための,原則的,学習ベースのフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-11T06:53:27Z)
An Ensemble Embedding Approach for Improving Semantic Caching Performance in LLM-based Systems [4.364576564103288]
本稿では,複数の埋め込みモデルを訓練されたメタエンコーダを通じて組み合わせ,意味的類似性の検出を改善するアンサンブル埋め込み手法を提案する。提案手法をQuora Question Pairsデータセットを用いて評価し,キャッシュヒット率,キャッシュミス率,トークンセーブ,応答時間を測定した。
論文参考訳（メタデータ） (2025-07-08T09:20:12Z)
ContextCache: Context-Aware Semantic Cache for Multi-Turn Queries in Large Language Models [33.729482204460815]
このデモでは、マルチターン対話のためのコンテキスト対応セマンティックキャッシュシステムであるContextCacheを紹介した。 ContextCacheは、2段階の検索アーキテクチャを使用し、まず現在のクエリ上でベクトルベースの検索を実行し、潜在的なマッチングを識別し、その後、正確なコンテキストマッチングのための自己認識機構を通じて、現在の対話表現と過去の対話表現を統合する。キャッシュされた応答は、直接LLM呼び出しの約10倍のレイテンシを示し、会話アプリケーションに対する計算コストの大幅な削減を可能にする。
論文参考訳（メタデータ） (2025-06-28T07:25:12Z)
Lookahead Q-Cache: Achieving More Consistent KV Cache Eviction via Pseudo Query [48.52389201779425]
KVキャッシュメモリの使用は、長いテキストシーケンスで大幅に増加する。プリフィルステージアテンションスコアを用いた既存のKVキャッシュ消去手法Pruneトークン Lookahead Q-Cacheは、真のデコードステージクエリをよりよく近似するために、低コストの疑似ルックアヘッドクエリを生成する。
論文参考訳（メタデータ） (2025-05-24T10:34:38Z)
A Generative Caching System for Large Language Models [1.2132389187658934]
キャッシングは、大きな言語モデル(LLM)にアクセスする上で、大きなメリットをもたらす可能性がある。本稿では,LLMを用いたユーザエクスペリエンス向上のための新しいキャッシングシステムを提案する。生成キャッシングでは、複数のキャッシュされたレスポンスを合成して、これまで見たことのないクエリに対する回答を提供することができます。
論文参考訳（メタデータ） (2025-03-22T01:17:56Z)
Auditing Prompt Caching in Language Model APIs [77.02079451561718]
大規模言語モデル(LLM)における即時キャッシュによるプライバシリークについて検討する。 OpenAIを含む7つのAPIプロバイダのユーザ間でのグローバルキャッシュ共有を検出します。 OpenAIの埋め込みモデルがデコーダのみのトランスフォーマーであることの証拠が見つかりました。
論文参考訳（メタデータ） (2025-02-11T18:58:04Z)
Adaptive Semantic Prompt Caching with VectorQ [78.59891542553179]
ベクトル類似度メトリクスは、キャッシュ内の埋め込みプロンプトと最も近い隣人の類似度を定量化するために数値スコアを割り当てる。既存のシステムは、キャッシュヒットの原因となる類似度スコアが十分に高いかどうかを分類するために静的しきい値に依存している。この1つの大きさのしきい値が、異なる埋め込みで不十分であることを示す。埋め込み固有のしきい値領域を学習するためのしきい値収束を保証するオンラインフレームワークであるVectorQを提案する。
論文参考訳（メタデータ） (2025-02-06T04:16:20Z)
InstCache: A Predictive Cache for LLM Serving [9.878166964839512]
本稿では,命令整合 LLM によるユーザインストラクションの予測と,それを予測キャッシュ,いわゆる InstCache に格納することを提案する。実験の結果、InstCacheはLMSysデータセット上で最大51.34%のヒット率を達成でき、メモリコストは4.5GBに過ぎなかった。
論文参考訳（メタデータ） (2024-11-21T03:52:41Z)
GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching [0.0]
GPT Semantic Cacheは、インメモリストレージ(Redis)におけるクエリ埋め込みのセマンティックキャッシュを利用する方法である。提案手法は意味論的に類似した質問を効果的に識別し,大規模言語モデルに対する冗長なAPI呼び出しを伴わずに,事前生成応答の検索を可能にする。この技術は運用コストを削減し、応答時間を短縮し、LCMを利用したアプリケーションの効率を向上させる。
論文参考訳（メタデータ） (2024-11-08T02:21:19Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文参考訳（メタデータ） (2024-06-03T18:49:57Z)
SCALM: Towards Semantic Caching for Automated Chat Services with Large Language Models [15.742472622602557]
セマンティック分析を重視し,重要なキャッシュエントリやパターンを識別する新しいキャッシュアーキテクチャであるSCALMを提案する。評価の結果,SCALMはキャッシュヒット率を増大させ,LLMChatサービスの運用コストを低減させることがわかった。
論文参考訳（メタデータ） (2024-05-24T08:16:22Z)
Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文参考訳（メタデータ） (2024-03-09T07:01:44Z)
A Learning-Based Caching Mechanism for Edge Content Delivery [2.412158290827225]
5GネットワークとIoT(Internet of Things)の台頭により、ネットワークのエッジはますます拡大している。このシフトは、特に限られたキャッシュストレージとエッジにおける多様な要求パターンのために、ユニークな課題をもたらす。 HR-Cacheは、ハザードレート(HR)順序付けの原則に基づく学習ベースのキャッシュフレームワークである。
論文参考訳（メタデータ） (2024-02-05T08:06:03Z)
LLMs for Test Input Generation for Semantic Caches [1.8628177380024746]
大規模言語モデル(LLM)は、最先端のセマンティック機能をソフトウェアシステムに追加することを可能にする。規模によっては、何千ものユーザーへのサービス提供コストは、ユーザーエクスペリエンスにも大きく影響します。本稿では、構造化されていない文書から類似した質問を生成するテスト入力生成にLLMを使用するアプローチであるVaryGenを提案する。
論文参考訳（メタデータ） (2024-01-16T06:16:33Z)
DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。 DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文参考訳（メタデータ） (2023-12-01T17:01:06Z)
Accelerating Deep Learning Classification with Error-controlled Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文参考訳（メタデータ） (2021-12-13T13:49:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。