Fugu-MT 論文翻訳(概要): Adaptive Semantic Prompt Caching with VectorQ

論文の概要: Adaptive Semantic Prompt Caching with VectorQ

arxiv url: http://arxiv.org/abs/2502.03771v1
Date: Thu, 06 Feb 2025 04:16:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-07 15:30:40.617672
Title: Adaptive Semantic Prompt Caching with VectorQ
Title（参考訳）: VectorQを用いた適応型セマンティックプロンプトキャッシング
Authors: Luis Gaspar Schroeder, Shu Liu, Alejandro Cuadron, Mark Zhao, Stephan Krusche, Alfons Kemper, Matei Zaharia, Joseph E. Gonzalez,
Abstract要約: ベクトル類似度メトリクスは、キャッシュ内の埋め込みプロンプトと最も近い隣人の類似度を定量化するために数値スコアを割り当てる。この1つの大きさの閾値は、異なるプロンプトで不十分であることを示す。埋め込みの複雑さと不確実性に適応する埋め込み固有のしきい値領域を学習するためのフレームワークであるVectorQを提案する。
参考スコア（独自算出の注目度）: 78.59891542553179
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Semantic prompt caches reduce the latency and cost of large language model (LLM) inference by reusing cached LLM-generated responses for semantically similar prompts. Vector similarity metrics assign a numerical score to quantify the similarity between an embedded prompt and its nearest neighbor in the cache. Existing systems rely on a static threshold to classify whether the similarity score is sufficiently high to result in a cache hit. We show that this one-size-fits-all threshold is insufficient across different prompts. We propose VectorQ, a framework to learn embedding-specific threshold regions that adapt to the complexity and uncertainty of an embedding. Through evaluations on a combination of four diverse datasets, we show that VectorQ consistently outperforms state-of-the-art systems across all static thresholds, achieving up to 12x increases in cache hit rate and error rate reductions up to 92%.
Abstract（参考訳）: セマンティックプロンプトキャッシュは、意味論的に類似したプロンプトのためにキャッシュされたLLM生成応答を再利用することにより、大きな言語モデル(LLM)推論のレイテンシとコストを低減する。ベクトル類似度メトリクスは、キャッシュ内の埋め込みプロンプトと最も近い隣人の類似度を定量化するために数値スコアを割り当てる。既存のシステムは、キャッシュヒットの原因となる類似度スコアが十分に高いかどうかを分類するために静的しきい値に依存している。この1つの大きさの閾値は、異なるプロンプトで不十分であることを示す。埋め込みの複雑さと不確実性に適応する埋め込み固有のしきい値領域を学習するためのフレームワークであるVectorQを提案する。 4つの多様なデータセットの組み合わせによる評価により、VectorQは、すべての静的しきい値における最先端システムよりも一貫して優れており、キャッシュヒット率の最大12倍、エラーレートの最大92%が達成されている。

関連論文リスト

MagCache: Fast Video Generation with Magnitude-Aware Cache [91.51242917160373]
我々は、様々なモデルとプロンプトで観察される統一等級法則という、新しく頑健な発見を導入する。我々は、エラーモデリング機構と適応キャッシュ戦略を用いて、重要でないタイムステップを適応的にスキップするMagnitude-aware Cache(MagCache)を導入する。実験の結果、MagCacheはOpen-SoraとWan 2.1でそれぞれ2.1倍と2.68倍のスピードアップを達成した。
論文参考訳（メタデータ） (2025-06-10T17:59:02Z)
FastCache: Fast Caching for Diffusion Transformer Through Learnable Linear Approximation [46.57781555466333]
DiT (Diffusion Transformer) は強力な生成モデルであるが、その反復構造と深部変圧器スタックのために計算集約性を維持している。 FastCacheは、DiT推論を高速化する隠れ状態レベルのキャッシュおよび圧縮フレームワークである。複数のDiT変種にまたがる実証的な評価は、レイテンシとメモリ使用量の大幅な削減を示している。
論文参考訳（メタデータ） (2025-05-26T05:58:49Z)
dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文参考訳（メタデータ） (2025-05-21T17:32:10Z)
EPIC: Efficient Position-Independent Context Caching for Serving Large Language Models [19.510078997414606]
EPICは、大きな言語モデルのための位置非依存のコンテキストキャッシュを導入している。 EPICはTTFTの最大8倍のスループットと既存のシステムに対する7倍のスループットを提供する。
論文参考訳（メタデータ） (2024-10-20T08:42:29Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
Hidden Web Caches Discovery [3.9272151228741716]
本稿では,タイミング解析を用いたキャッシュ検出手法を提案する。このアプローチはキャッシュのステータスヘッダへの依存性を排除し、あらゆるWebサーバに適用できます。
論文参考訳（メタデータ） (2024-07-23T08:58:06Z)
CacheSquash: Making caches speculation-aware [11.499924192220274]
高いCPUパフォーマンスを実現する上では、投機が鍵となるが、Spectre攻撃のようなリスクを可能にする。本稿では,メモリアクセスの不正を解消する新しい対策であるCacheSquashを提案する。 gem5にCacheSquashを実装し、ほぼゼロに近いパフォーマンスのオーバーヘッドで、実用的なSpectre攻撃を阻止していることを示す。
論文参考訳（メタデータ） (2024-06-17T21:43:39Z)
Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文参考訳（メタデータ） (2024-06-03T18:49:57Z)
MeanCache: User-Centric Semantic Caching for LLM Web Services [8.350378532274405]
キャッシングは、繰り返しクエリの推論コストを削減するための自然なソリューションである。本稿では,LLMベースのサービスのためのユーザ中心セマンティックキャッシュであるMeanCacheを紹介する。 MeanCacheは、セマンティックに類似したクエリを特定して、キャッシュヒットやミスを判定する。
論文参考訳（メタデータ） (2024-03-05T06:23:50Z)
Efficient Prompt Caching via Embedding Similarity [26.456212783693545]
類似度を埋め込んだ単ラウンド質問問合せタスクにおけるプロンプトキャッシングの予測精度に着目した。そこで本研究では, 蒸留法を用いて既存の埋込物を微調整し, より良い予測を行う方法を提案する。また、トレーニングされたモデルが従来の埋め込みモデルよりもキャッシング効率が良いことを示すシミュレーションも行います。
論文参考訳（メタデータ） (2024-02-02T06:34:11Z)
Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文参考訳（メタデータ） (2023-12-27T09:03:43Z)
Temporal-aware Hierarchical Mask Classification for Video Semantic Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。 VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-09-14T20:31:06Z)
Towards Model-Size Agnostic, Compute-Free, Memorization-based Inference of Deep Learning [5.41530201129053]
本稿では,新しい暗記ベース推論(MBI)を提案する。具体的には、リカレント・アテンション・モデル(RAM)の推論機構に着目します。低次元のスリープ性を活用することで、我々の推論手順は、スリープ位置、パッチベクトルなどからなるキー値対をテーブルに格納する。計算は、テーブルを利用してキーと値のペアを読み出し、暗記による計算自由推論を実行することにより、推論中に妨げられる。
論文参考訳（メタデータ） (2023-07-14T21:01:59Z)
Clustered-patch Element Connection for Few-shot Learning [29.94768391960718]
本稿では,ミスマッチ問題を修正するために,新しいクラスタ化パッチ要素接続層を提案する。我々のCECNetは、分類ベンチマークで最先端の手法よりも優れています。
論文参考訳（メタデータ） (2023-04-20T05:22:27Z)
Layer Ensembles [95.42181254494287]
本稿では,ネットワークの各層に対する独立なカテゴリ分布の集合を考慮した不確実性推定手法を提案する。その結果,メモリと実行時間が少なくなるモデルが得られた。
論文参考訳（メタデータ） (2022-10-10T17:52:47Z)
Accelerating Deep Learning Classification with Error-controlled Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文参考訳（メタデータ） (2021-12-13T13:49:11Z)
SCNet: Training Inference Sample Consistency for Instance Segmentation [15.963615360741356]
本稿では、トレーニング時のサンプルのIoU分布が推論時のそれに近いことを確認するために、サンプル一貫性ネットワーク(SCNet)と呼ばれるアーキテクチャを提案する。標準データセットを用いた実験では,ボックスAP,マスクAP,推論速度など,複数の評価指標に対して提案手法の有効性が示された。
論文参考訳（メタデータ） (2020-12-18T10:26:54Z)
ROME: Robustifying Memory-Efficient NAS via Topology Disentanglement and Gradient Accumulation [106.04777600352743]
微分可能なアーキテクチャサーチ(DARTS)は、スーパーネット全体がメモリに格納されているため、メモリコストが大幅に低下する。シングルパスのDARTSが登場し、各ステップでシングルパスのサブモデルのみを選択する。メモリフレンドリーだが、計算コストも低い。 RObustifying Memory-Efficient NAS (ROME) と呼ばれる新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-11-23T06:34:07Z)
Boosting Continuous Sign Language Recognition via Cross Modality Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。クロスモーダル拡張を用いた新しいアーキテクチャを提案する。提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文参考訳（メタデータ） (2020-10-11T15:07:50Z)
Fast, Compact and Highly Scalable Visual Place Recognition through Sequence-based Matching of Overloaded Representations [33.50309671827902]
我々は、非常に大規模な1000万の場所データセットにおいて、いかに効果的に場所認識率が達成できるかを示す。我々は、非常に大規模な1000万の場所データセットにおいて、いかに効果的に場所認識率が達成できるかを示す。
論文参考訳（メタデータ） (2020-01-23T10:31:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。