Fugu-MT 論文翻訳(概要): Privacy-Aware Semantic Cache for Large Language Models

論文の概要: Privacy-Aware Semantic Cache for Large Language Models

arxiv url: http://arxiv.org/abs/2403.02694v2
Date: Wed, 3 Apr 2024 16:06:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 21:58:11.673598
Title: Privacy-Aware Semantic Cache for Large Language Models
Title（参考訳）: 大規模言語モデルのためのプライバシ対応セマンティックキャッシュ
Authors: Waris Gill, Mohamed Elidrisi, Pallavi Kalapatapu, Ali Anwar, Muhammad Ali Gulzar,
Abstract要約: キャッシングは、繰り返しクエリの推論コストを削減するための自然なソリューションである。本稿では,大規模言語モデルのためのユーザ中心セマンティックキャッシュであるMeanCacheを紹介する。セマンティックに類似したクエリを特定して、キャッシュヒットやミスを判定する。
参考スコア（独自算出の注目度）: 6.984061705505598
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) like ChatGPT and Llama2 have revolutionized natural language processing and search engine dynamics. However, these models incur exceptionally high computational costs. For instance, GPT-3 consists of 175 billion parameters where inference demands billions of floating-point operations. Caching is a natural solution to reduce LLM inference costs on repeated queries which constitute about 31% of the total queries. However, existing caching methods are incapable of finding semantic similarities among LLM queries, leading to unacceptable false hit-and-miss rates. This paper introduces MeanCache, a user-centric semantic cache for LLMs that identifies semantically similar queries to determine cache hit or miss. Using MeanCache, the response to a user's semantically similar query can be retrieved from a local cache rather than re-querying the LLM, thus reducing costs, service provider load, and environmental impact. Existing caching solutions for LLMs raise privacy and scalability concerns and perform wasteful query requests. MeanCache leverages Federated Learning (FL) to collaboratively train a query similarity model across LLM users without violating privacy. By placing a local cache in each user's device and using FL, MeanCache reduces the latency and costs and enhances model performance, resulting in lower false hit rates. MeanCache compresses the embedding dimensions to minimize cache storage and also finds the optimal cosine similarity threshold. Our experiments benchmarked against the state-of-the-art caching method, reveal that MeanCache attains an approximately 17% higher F-score and a 20% increase in precision during semantic cache hit-and-miss decisions. It also reduces the storage requirement by 83% and accelerates semantic cache hit-and-miss decisions by 11%.
Abstract（参考訳）: ChatGPTやLlama2のような大規模言語モデル(LLM)は、自然言語処理と検索エンジンのダイナミクスに革命をもたらした。しかし、これらのモデルは非常に高い計算コストがかかる。例えば、GPT-3は1750億のパラメータで構成され、推論は何十億もの浮動小数点演算を必要とする。キャッシングは、全クエリの約31%を構成する繰り返しクエリに対するLCM推論コストを削減するための自然なソリューションである。しかし、既存のキャッシュ手法ではLLMクエリ間のセマンティックな類似性を見つけることができず、許容できない偽のヒット・アンド・ミスレートにつながる。本稿では,LLMのユーザ中心セマンティックキャッシュであるMeanCacheを紹介する。 MeanCacheを使用すると、ユーザーのセマンティックに類似したクエリに対する応答は、LLMを再クエリするのではなく、ローカルキャッシュから取得できるため、コスト、サービスプロバイダの負荷、環境への影響を低減できる。 LLMの既存のキャッシュソリューションは、プライバシとスケーラビリティの懸念を高め、無駄なクエリ要求を実行する。 MeanCacheは、フェデレートラーニング(FL)を活用して、プライバシに違反することなく、LLMユーザ間でクエリ類似性モデルを協調的にトレーニングする。各ユーザのデバイスにローカルキャッシュを配置してFLを使用することで、MeanCacheはレイテンシとコストを低減し、モデルパフォーマンスを向上させる。 MeanCacheは埋め込み次元を圧縮してキャッシュストレージを最小限にし、最適なコサイン類似性しきい値を見つける。我々の実験は、最先端のキャッシュ手法と比較し、MeanCacheは、セマンティックキャッシュのヒット・アンド・ミス決定において、約17%のFスコアを獲得し、20%の精度で精度が向上することを示した。また、ストレージ要求を83%削減し、セマンティックキャッシュのヒットアンドミス決定を11%高速化する。

関連論文リスト

An Ensemble Embedding Approach for Improving Semantic Caching Performance in LLM-based Systems [4.364576564103288]
本稿では,複数の埋め込みモデルを訓練されたメタエンコーダを通じて組み合わせ,意味的類似性の検出を改善するアンサンブル埋め込み手法を提案する。提案手法をQuora Question Pairsデータセットを用いて評価し,キャッシュヒット率,キャッシュミス率,トークンセーブ,応答時間を測定した。
論文参考訳（メタデータ） (2025-07-08T09:20:12Z)
ContextCache: Context-Aware Semantic Cache for Multi-Turn Queries in Large Language Models [33.729482204460815]
このデモでは、マルチターン対話のためのコンテキスト対応セマンティックキャッシュシステムであるContextCacheを紹介した。 ContextCacheは、2段階の検索アーキテクチャを使用し、まず現在のクエリ上でベクトルベースの検索を実行し、潜在的なマッチングを識別し、その後、正確なコンテキストマッチングのための自己認識機構を通じて、現在の対話表現と過去の対話表現を統合する。キャッシュされた応答は、直接LLM呼び出しの約10倍のレイテンシを示し、会話アプリケーションに対する計算コストの大幅な削減を可能にする。
論文参考訳（メタデータ） (2025-06-28T07:25:12Z)
Lookahead Q-Cache: Achieving More Consistent KV Cache Eviction via Pseudo Query [48.52389201779425]
KVキャッシュメモリの使用は、長いテキストシーケンスで大幅に増加する。プリフィルステージアテンションスコアを用いた既存のKVキャッシュ消去手法Pruneトークン Lookahead Q-Cacheは、真のデコードステージクエリをよりよく近似するために、低コストの疑似ルックアヘッドクエリを生成する。
論文参考訳（メタデータ） (2025-05-24T10:34:38Z)
A Generative Caching System for Large Language Models [1.2132389187658934]
キャッシングは、大きな言語モデル(LLM)にアクセスする上で、大きなメリットをもたらす可能性がある。本稿では,LLMを用いたユーザエクスペリエンス向上のための新しいキャッシングシステムを提案する。生成キャッシングでは、複数のキャッシュされたレスポンスを合成して、これまで見たことのないクエリに対する回答を提供することができます。
論文参考訳（メタデータ） (2025-03-22T01:17:56Z)
Auditing Prompt Caching in Language Model APIs [77.02079451561718]
大規模言語モデル(LLM)における即時キャッシュによるプライバシリークについて検討する。 OpenAIを含む7つのAPIプロバイダのユーザ間でのグローバルキャッシュ共有を検出します。 OpenAIの埋め込みモデルがデコーダのみのトランスフォーマーであることの証拠が見つかりました。
論文参考訳（メタデータ） (2025-02-11T18:58:04Z)
Adaptive Semantic Prompt Caching with VectorQ [78.59891542553179]
ベクトル類似度メトリクスは、キャッシュ内の埋め込みプロンプトと最も近い隣人の類似度を定量化するために数値スコアを割り当てる。既存のシステムは、キャッシュヒットの原因となる類似度スコアが十分に高いかどうかを分類するために静的しきい値に依存している。この1つの大きさのしきい値が、異なる埋め込みで不十分であることを示す。埋め込み固有のしきい値領域を学習するためのしきい値収束を保証するオンラインフレームワークであるVectorQを提案する。
論文参考訳（メタデータ） (2025-02-06T04:16:20Z)
InstCache: A Predictive Cache for LLM Serving [9.878166964839512]
本稿では,命令整合 LLM によるユーザインストラクションの予測と,それを予測キャッシュ,いわゆる InstCache に格納することを提案する。実験の結果、InstCacheはLMSysデータセット上で最大51.34%のヒット率を達成でき、メモリコストは4.5GBに過ぎなかった。
論文参考訳（メタデータ） (2024-11-21T03:52:41Z)
GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching [0.0]
GPT Semantic Cacheは、インメモリストレージ(Redis)におけるクエリ埋め込みのセマンティックキャッシュを利用する方法である。提案手法は意味論的に類似した質問を効果的に識別し,大規模言語モデルに対する冗長なAPI呼び出しを伴わずに,事前生成応答の検索を可能にする。この技術は運用コストを削減し、応答時間を短縮し、LCMを利用したアプリケーションの効率を向上させる。
論文参考訳（メタデータ） (2024-11-08T02:21:19Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文参考訳（メタデータ） (2024-06-03T18:49:57Z)
SCALM: Towards Semantic Caching for Automated Chat Services with Large Language Models [15.742472622602557]
セマンティック分析を重視し,重要なキャッシュエントリやパターンを識別する新しいキャッシュアーキテクチャであるSCALMを提案する。評価の結果,SCALMはキャッシュヒット率を増大させ,LLMChatサービスの運用コストを低減させることがわかった。
論文参考訳（メタデータ） (2024-05-24T08:16:22Z)
Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文参考訳（メタデータ） (2024-03-09T07:01:44Z)
A Learning-Based Caching Mechanism for Edge Content Delivery [2.412158290827225]
5GネットワークとIoT(Internet of Things)の台頭により、ネットワークのエッジはますます拡大している。このシフトは、特に限られたキャッシュストレージとエッジにおける多様な要求パターンのために、ユニークな課題をもたらす。 HR-Cacheは、ハザードレート(HR)順序付けの原則に基づく学習ベースのキャッシュフレームワークである。
論文参考訳（メタデータ） (2024-02-05T08:06:03Z)
LLMs for Test Input Generation for Semantic Caches [1.8628177380024746]
大規模言語モデル(LLM)は、最先端のセマンティック機能をソフトウェアシステムに追加することを可能にする。規模によっては、何千ものユーザーへのサービス提供コストは、ユーザーエクスペリエンスにも大きく影響します。本稿では、構造化されていない文書から類似した質問を生成するテスト入力生成にLLMを使用するアプローチであるVaryGenを提案する。
論文参考訳（メタデータ） (2024-01-16T06:16:33Z)
DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。 DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文参考訳（メタデータ） (2023-12-01T17:01:06Z)
Accelerating Deep Learning Classification with Error-controlled Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文参考訳（メタデータ） (2021-12-13T13:49:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。