論文の概要: Efficient Prompt Caching via Embedding Similarity
- arxiv url: http://arxiv.org/abs/2402.01173v1
- Date: Fri, 2 Feb 2024 06:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 16:39:57.342031
- Title: Efficient Prompt Caching via Embedding Similarity
- Title(参考訳): 埋め込み類似性を利用した効率的なプロンプトキャッシング
- Authors: Hanlin Zhu, Banghua Zhu, Jiantao Jiao
- Abstract要約: 類似度を埋め込んだ単ラウンド質問問合せタスクにおけるプロンプトキャッシングの予測精度に着目した。
そこで本研究では, 蒸留法を用いて既存の埋込物を微調整し, より良い予測を行う方法を提案する。
また、トレーニングされたモデルが従来の埋め込みモデルよりもキャッシング効率が良いことを示すシミュレーションも行います。
- 参考スコア(独自算出の注目度): 26.456212783693545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved huge success in numerous natural
language process (NLP) tasks. However, it faces the challenge of significant
resource consumption during inference. In this paper, we aim to improve the
inference efficiency of LLMs by prompt caching, i.e., if the current prompt can
be answered by the same response of a previous prompt, one can directly utilize
that previous response without calling the LLM. Specifically, we focus on the
prediction accuracy of prompt caching for single-round question-answering tasks
via embedding similarity. The existing embeddings of prompts mostly focus on
whether two prompts are semantically similar, which is not necessarily
equivalent to whether the same response can answer them. Therefore, we propose
a distillation-based method to fine-tune the existing embeddings for better
caching prediction. Theoretically, we provide finite-sample guarantees for the
convergence of our method under different types of loss functions. Empirically,
we carefully construct a hard dataset based on Kwiatkowski et al. (2019) where
the existing embedding model (Wang et al., 2022) only achieves an AUC of 0.51.
We then fine-tune the above embedding model, which significantly improves the
AUC of caching prediction from 0.51 to 0.81. We also conduct simulations
demonstrating that our trained models achieve better caching efficiency than
the previous embedding model.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクで大きな成功を収めた。
しかし、推論中にかなりのリソース消費の課題に直面している。
本稿では,従来のプロンプトと同じ応答で現在のプロンプトが応答できる場合,LCMを呼ばずに,その前の応答を直接利用できるようにすることで,LCMの推論効率を向上させることを目的とする。
具体的には,組込み類似性による単ラウンド質問応答タスクに対するプロンプトキャッシングの予測精度に着目した。
既存のプロンプトの埋め込みは主に、2つのプロンプトが意味的に類似しているかどうかに焦点を当てている。
そこで本研究では,既存の埋蔵量を微調整してキャッシング予測を改善する蒸留法を提案する。
理論的には、異なるタイプの損失関数の下での収束に対する有限サンプル保証を提供する。
経験的に、Kwiatkowski et al. (2019)に基づくハードデータセットを慎重に構築し、既存の埋め込みモデル(Wang et al., 2022)は0.51のAUCしか達成しない。
次に、上記の埋め込みモデルを微調整し、キャッシュ予測のAUCを0.51から0.81に大幅に改善する。
また、トレーニングしたモデルが以前の埋め込みモデルよりもキャッシュ効率が良いことを実証するシミュレーションも行います。
関連論文リスト
- Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - An Efficient Inference Framework for Early-exit Large Language Models [5.048467183620882]
初期出力モデルでは、静止層をスキップすることでLCMの推論効率を向上し、自信があれば出力トークンを直接生成する。
早期終了モデルを考慮に入れたLLM推論フレームワークの作業はない。
我々は,(1)反復レベルの粒度のバッチ推論,(2)KVキャッシュ管理という,早期終了モデルの効率的な推論フレームワークを構築する上での2つの課題を解決する。
論文 参考訳(メタデータ) (2024-07-25T07:50:17Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - Adaptive Sparse Gaussian Process [0.0]
これらの問題に対処できる最初の適応スパースガウスプロセス(GP)を提案する。
まず,変分スパースGPアルゴリズムを変形係数によって適応的に再構成する。
そこで我々は,新しいサンプルが到着するたびに,スパースGPモデルの単一誘導点と残りのモデルパラメータを同時に更新することを提案する。
論文 参考訳(メタデータ) (2023-02-20T21:34:36Z) - Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2022-11-27T19:50:37Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Embarrassingly Simple Performance Prediction for Abductive Natural
Language Inference [10.536415845097661]
本研究では,NLIモデルの性能を微調整せずに予測する手法を提案する。
その結果,コサイン類似度手法の精度はパーソン相関係数0.65の分類手法の精度と強く相関していることがわかった。
提案手法は,モデル選択の過程において,大幅な時間節約につながる可能性がある。
論文 参考訳(メタデータ) (2022-02-21T18:10:24Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z) - Learning Dense Representations of Phrases at Scale [22.792942611601347]
オープンドメインのQAにおいて、より強力なパフォーマンスを実現するための単語表現のみを学習できることを、私たちは初めて示します。
本モデルでは,従来の句検索モデルを15%~25%の絶対精度で改善する。
私たちのモデルは、純粋に密度の高い表現とCPU上で毎秒10問以上のプロセスのために、並列化が容易です。
論文 参考訳(メタデータ) (2020-12-23T12:28:17Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。