Fugu-MT 論文翻訳(概要): vCache: Verified Semantic Prompt Caching

論文の概要: vCache: Verified Semantic Prompt Caching

arxiv url: http://arxiv.org/abs/2502.03771v3
Date: Tue, 27 May 2025 04:15:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 14:37:19.158187
Title: vCache: Verified Semantic Prompt Caching
Title（参考訳）: vCache: 検証されたセマンティックプロンプトキャッシュ
Authors: Luis Gaspar Schroeder, Aditya Desai, Alejandro Cuadron, Kyle Chu, Shu Liu, Mark Zhao, Stephan Krusche, Alfons Kemper, Matei Zaharia, Joseph E. Gonzalez,
Abstract要約: 本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
参考スコア（独自算出の注目度）: 75.87215136638828
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Semantic caches return cached LLM-generated responses for semantically similar prompts to reduce inference latency and cost. They embed cached prompts and store them alongside their response in a vector database. Embedding similarity metrics assign a numerical score to quantify the similarity between a request and its nearest neighbor prompt from the cache. Existing systems use the same static similarity threshold across all requests to determine whether two prompts can share similar responses. However, we observe that static thresholds do not give formal correctness guarantees, can result in unexpected error rates, and lead to suboptimal cache hit rates. This paper proposes vCache, the first verified semantic cache with user-defined error rate guarantees. It employs an online learning algorithm to estimate an optimal threshold for each cached prompt, enabling reliable cache responses without additional training. Our experiments show that vCache consistently meets the specified error bounds while outperforming state-of-the-art static-threshold and fine-tuned embedding baselines. We release the vCache implementation and benchmarks to support future research.
Abstract（参考訳）: セマンティックキャッシュは、推論レイテンシとコストを削減するために、セマンティックに類似したプロンプトのためにキャッシュされたLCM生成応答を返す。キャッシュされたプロンプトを埋め込み、応答と一緒にベクターデータベースに格納する。類似度を埋め込むことで、キャッシュから隣接するプロンプトとリクエスト間の類似度を定量化する数値スコアを割り当てる。既存のシステムは、すべてのリクエストで同じ静的類似性しきい値を使用して、2つのプロンプトが同様の応答を共有できるかどうかを判断する。しかし、静的しきい値が正式な正当性保証を与えず、予期せぬエラー率を発生させ、キャッシュヒット率を最適以下に抑えることができる。本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。将来の研究をサポートするために、vCacheの実装とベンチマークをリリースします。

関連論文リスト

MagCache: Fast Video Generation with Magnitude-Aware Cache [91.51242917160373]
我々は、様々なモデルとプロンプトで観察される統一等級法則という、新しく頑健な発見を導入する。我々は、エラーモデリング機構と適応キャッシュ戦略を用いて、重要でないタイムステップを適応的にスキップするMagnitude-aware Cache(MagCache)を導入する。実験の結果、MagCacheはOpen-SoraとWan 2.1でそれぞれ2.1倍と2.68倍のスピードアップを達成した。
論文参考訳（メタデータ） (2025-06-10T17:59:02Z)
FastCache: Fast Caching for Diffusion Transformer Through Learnable Linear Approximation [46.57781555466333]
DiT (Diffusion Transformer) は強力な生成モデルであるが、その反復構造と深部変圧器スタックのために計算集約性を維持している。 FastCacheは、DiT推論を高速化する隠れ状態レベルのキャッシュおよび圧縮フレームワークである。複数のDiT変種にまたがる実証的な評価は、レイテンシとメモリ使用量の大幅な削減を示している。
論文参考訳（メタデータ） (2025-05-26T05:58:49Z)
dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文参考訳（メタデータ） (2025-05-21T17:32:10Z)
EPIC: Efficient Position-Independent Context Caching for Serving Large Language Models [19.510078997414606]
EPICは、大きな言語モデルのための位置非依存のコンテキストキャッシュを導入している。 EPICはTTFTの最大8倍のスループットと既存のシステムに対する7倍のスループットを提供する。
論文参考訳（メタデータ） (2024-10-20T08:42:29Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
Hidden Web Caches Discovery [3.9272151228741716]
本稿では,タイミング解析を用いたキャッシュ検出手法を提案する。このアプローチはキャッシュのステータスヘッダへの依存性を排除し、あらゆるWebサーバに適用できます。
論文参考訳（メタデータ） (2024-07-23T08:58:06Z)
CacheSquash: Making caches speculation-aware [11.499924192220274]
高いCPUパフォーマンスを実現する上では、投機が鍵となるが、Spectre攻撃のようなリスクを可能にする。本稿では,メモリアクセスの不正を解消する新しい対策であるCacheSquashを提案する。 gem5にCacheSquashを実装し、ほぼゼロに近いパフォーマンスのオーバーヘッドで、実用的なSpectre攻撃を阻止していることを示す。
論文参考訳（メタデータ） (2024-06-17T21:43:39Z)
Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文参考訳（メタデータ） (2024-06-03T18:49:57Z)
MeanCache: User-Centric Semantic Caching for LLM Web Services [8.350378532274405]
キャッシングは、繰り返しクエリの推論コストを削減するための自然なソリューションである。本稿では,LLMベースのサービスのためのユーザ中心セマンティックキャッシュであるMeanCacheを紹介する。 MeanCacheは、セマンティックに類似したクエリを特定して、キャッシュヒットやミスを判定する。
論文参考訳（メタデータ） (2024-03-05T06:23:50Z)
Efficient Prompt Caching via Embedding Similarity [26.456212783693545]
類似度を埋め込んだ単ラウンド質問問合せタスクにおけるプロンプトキャッシングの予測精度に着目した。そこで本研究では, 蒸留法を用いて既存の埋込物を微調整し, より良い予測を行う方法を提案する。また、トレーニングされたモデルが従来の埋め込みモデルよりもキャッシング効率が良いことを示すシミュレーションも行います。
論文参考訳（メタデータ） (2024-02-02T06:34:11Z)
Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文参考訳（メタデータ） (2023-12-27T09:03:43Z)
Temporal-aware Hierarchical Mask Classification for Video Semantic Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。 VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-09-14T20:31:06Z)
Towards Model-Size Agnostic, Compute-Free, Memorization-based Inference of Deep Learning [5.41530201129053]
本稿では,新しい暗記ベース推論(MBI)を提案する。具体的には、リカレント・アテンション・モデル(RAM)の推論機構に着目します。低次元のスリープ性を活用することで、我々の推論手順は、スリープ位置、パッチベクトルなどからなるキー値対をテーブルに格納する。計算は、テーブルを利用してキーと値のペアを読み出し、暗記による計算自由推論を実行することにより、推論中に妨げられる。
論文参考訳（メタデータ） (2023-07-14T21:01:59Z)
Clustered-patch Element Connection for Few-shot Learning [29.94768391960718]
本稿では,ミスマッチ問題を修正するために,新しいクラスタ化パッチ要素接続層を提案する。我々のCECNetは、分類ベンチマークで最先端の手法よりも優れています。
論文参考訳（メタデータ） (2023-04-20T05:22:27Z)
Layer Ensembles [95.42181254494287]
本稿では,ネットワークの各層に対する独立なカテゴリ分布の集合を考慮した不確実性推定手法を提案する。その結果,メモリと実行時間が少なくなるモデルが得られた。
論文参考訳（メタデータ） (2022-10-10T17:52:47Z)
Accelerating Deep Learning Classification with Error-controlled Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文参考訳（メタデータ） (2021-12-13T13:49:11Z)
SCNet: Training Inference Sample Consistency for Instance Segmentation [15.963615360741356]
本稿では、トレーニング時のサンプルのIoU分布が推論時のそれに近いことを確認するために、サンプル一貫性ネットワーク(SCNet)と呼ばれるアーキテクチャを提案する。標準データセットを用いた実験では,ボックスAP,マスクAP,推論速度など,複数の評価指標に対して提案手法の有効性が示された。
論文参考訳（メタデータ） (2020-12-18T10:26:54Z)
ROME: Robustifying Memory-Efficient NAS via Topology Disentanglement and Gradient Accumulation [106.04777600352743]
微分可能なアーキテクチャサーチ(DARTS)は、スーパーネット全体がメモリに格納されているため、メモリコストが大幅に低下する。シングルパスのDARTSが登場し、各ステップでシングルパスのサブモデルのみを選択する。メモリフレンドリーだが、計算コストも低い。 RObustifying Memory-Efficient NAS (ROME) と呼ばれる新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-11-23T06:34:07Z)
Boosting Continuous Sign Language Recognition via Cross Modality Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。クロスモーダル拡張を用いた新しいアーキテクチャを提案する。提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文参考訳（メタデータ） (2020-10-11T15:07:50Z)
Fast, Compact and Highly Scalable Visual Place Recognition through Sequence-based Matching of Overloaded Representations [33.50309671827902]
我々は、非常に大規模な1000万の場所データセットにおいて、いかに効果的に場所認識率が達成できるかを示す。我々は、非常に大規模な1000万の場所データセットにおいて、いかに効果的に場所認識率が達成できるかを示す。
論文参考訳（メタデータ） (2020-01-23T10:31:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。