論文の概要: Privacy-Aware Semantic Cache for Large Language Models
- arxiv url: http://arxiv.org/abs/2403.02694v1
- Date: Tue, 5 Mar 2024 06:23:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 16:01:59.231303
- Title: Privacy-Aware Semantic Cache for Large Language Models
- Title(参考訳): 大規模言語モデルのためのプライバシ対応セマンティックキャッシュ
- Authors: Waris Gill (1), Mohamed Elidrisi (2), Pallavi Kalapatapu (2), Ali
Anwar (3), Muhammad Ali Gulzar (1) ((1) Virginia Tech, USA, (2) Cisco, USA
(3) University of Minnesota, Minneapolis, USA)
- Abstract要約: キャッシングは、繰り返しクエリの推論コストを削減するための自然なソリューションである。
本稿では,大規模言語モデルのためのセマンティックキャッシュであるMeanCacheを紹介する。
MeanCacheは、セマンティックに類似したクエリを特定して、キャッシュヒットやミスを判定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) like ChatGPT, Google Bard, Claude, and Llama 2
have revolutionized natural language processing and search engine dynamics.
However, these models incur exceptionally high computational costs. For
instance, GPT-3 consists of 175 billion parameters and inference on these
models also demands billions of floating-point operations. Caching is a natural
solution to reduce LLM inference costs on repeated queries. However, existing
caching methods are incapable of finding semantic similarities among LLM
queries, leading to unacceptable false hit-and-miss rates.
This paper introduces MeanCache, a semantic cache for LLMs that identifies
semantically similar queries to determine cache hit or miss. Using MeanCache,
the response to a user's semantically similar query can be retrieved from a
local cache rather than re-querying the LLM, thus reducing costs, service
provider load, and environmental impact. MeanCache leverages Federated Learning
(FL) to collaboratively train a query similarity model in a distributed manner
across numerous users without violating privacy. By placing a local cache in
each user's device and using FL, MeanCache reduces the latency and costs and
enhances model performance, resulting in lower cache false hit rates. Our
experiments, benchmarked against the GPTCache, reveal that MeanCache attains an
approximately 17% higher F-score and a 20% increase in precision during
semantic cache hit-and-miss decisions. Furthermore, MeanCache reduces the
storage requirement by 83% and accelerates semantic cache hit-and-miss
decisions by 11%, while still surpassing GPTCache.
- Abstract(参考訳): ChatGPT、Google Bard、Claude、Llama 2のような大規模言語モデル(LLM)は、自然言語処理と検索エンジンのダイナミクスに革命をもたらした。
しかし、これらのモデルは非常に高い計算コストがかかる。
例えば、GPT-3は1750億のパラメータで構成されており、これらのモデルに対する推測もまた数十億の浮動小数点演算を必要とする。
キャッシングは、繰り返しクエリのLSM推論コストを削減するための自然なソリューションである。
しかし、既存のキャッシュ手法ではLLMクエリ間のセマンティックな類似性を見つけることができず、許容できない偽のヒット・アンド・ミスレートにつながる。
本稿では, LLMのセマンティックキャッシュであるMeanCacheを紹介し, セマンティックに類似したクエリを識別し, キャッシュヒットやミスを判定する。
MeanCacheを使用すると、ユーザーのセマンティックに類似したクエリに対する応答は、LLMを再クエリするのではなく、ローカルキャッシュから取得できるため、コスト、サービスプロバイダの負荷、環境への影響を低減できる。
meancacheは連合学習(federated learning, fl)を活用して,プライバシに違反することなく,多数のユーザにわたってクエリ類似性を分散的にトレーニングする。
各ユーザのデバイスにローカルキャッシュを配置してFLを使用することで、MeanCacheはレイテンシとコストを低減し、モデルパフォーマンスを向上させる。
GPTCacheに対してベンチマークを行った結果,MeanCacheはFスコアが約17%高く,セマンティックキャッシュのヒットアンドミス判定時に20%精度が向上していることがわかった。
さらに、MeanCacheはストレージ要件を83%削減し、セマンティックキャッシュのヒットアンドミス決定を11%高速化すると同時に、GPTCacheを上回っている。
関連論文リスト
- Get More with LESS: Synthesizing Recurrence with KV Cache Compression
for Efficient LLM Inference [83.34219335496073]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - A Learning-Based Caching Mechanism for Edge Content Delivery [2.7110241847592915]
5GネットワークとIoT(Internet of Things)の台頭により、ネットワークのエッジはますます拡大している。
このシフトは、特に限られたキャッシュストレージとエッジにおける多様な要求パターンのために、ユニークな課題をもたらす。
HR-Cacheは、ハザードレート(HR)順序付けの原則に基づく学習ベースのキャッシュフレームワークである。
論文 参考訳(メタデータ) (2024-02-05T08:06:03Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [70.90551156819498]
大規模言語モデル(LLM)は、要求毎のコストを削減するために、多くのリクエストを一緒に要求する。
キー値(KV)キャッシュはメモリ要求を大幅に増加させ、スピードとメモリ使用における新たなボトルネックとなる。
KVキャッシュサイズを減らすための単純で効果的な解決策は量子化であり、KVキャッシュが取る全バイトを削減する。
KIVIは、Llama (Llama-2)、Falcon、Mistralモデルとほぼ同じ品質を維持しながら、$mathbf2.6times$のピークメモリ使用量を減らすことができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - LLMs for Test Input Generation for Semantic Caches [1.8628177380024746]
大規模言語モデル(LLM)は、最先端のセマンティック機能をソフトウェアシステムに追加することを可能にする。
規模によっては、何千ものユーザーへのサービス提供コストは、ユーザーエクスペリエンスにも大きく影響します。
本稿では、構造化されていない文書から類似した質問を生成するテスト入力生成にLLMを使用するアプローチであるVaryGenを提案する。
論文 参考訳(メタデータ) (2024-01-16T06:16:33Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。
キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文 参考訳(メタデータ) (2023-06-03T05:01:51Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z) - ARCH: Efficient Adversarial Regularized Training with Caching [91.74682538906691]
逆正則化は、多くの自然言語処理タスクにおけるモデル一般化を改善することができる。
本稿では,複数のエポック毎に摂動を発生・キャッシュする新たな逆正則化手法ARCHを提案する。
提案手法をニューラルネットワーク翻訳と自然言語理解タスクのセットで評価する。
論文 参考訳(メタデータ) (2021-09-15T02:05:37Z) - LeadCache: Regret-Optimal Caching in Networks [8.208569626646034]
本稿では、Follow-the-Perturbed-Leaderパラダイムに基づく効率的なオンラインキャッシュポリシーを提案する。
我々は、$textttLeadCache$が、ユーザの数である$tildeO(n3/8)まで、後悔の最適であることを示す。
論文 参考訳(メタデータ) (2020-09-17T12:13:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。