論文の概要: Prompt Cache: Modular Attention Reuse for Low-Latency Inference
- arxiv url: http://arxiv.org/abs/2311.04934v1
- Date: Tue, 7 Nov 2023 18:17:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 17:08:02.897848
- Title: Prompt Cache: Modular Attention Reuse for Low-Latency Inference
- Title(参考訳): Promptキャッシュ: 低レイテンシ推論のためのモジュールアテンション再利用
- Authors: In Gim, Guojun Chen, Seung-seob Lee, Nikhil Sarda, Anurag Khandelwal,
Lin Zhong
- Abstract要約: Prompt Cacheは,異なるプロンプトをまたいだ注意状態の再利用により,大規模言語モデル(LLM)の推論を高速化する手法である。
Prompt Cacheはスキーマを使用して、プロンプトモジュールと呼ばれる再利用可能なテキストセグメントを明示的に定義する。
本稿では,特により長いプロンプトに対して,Prompt Cacheがタイム・ツー・ファースト・トークンのレイテンシを著しく低減することを示す。
- 参考スコア(独自算出の注目度): 13.242408568763375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Prompt Cache, an approach for accelerating inference for large
language models (LLM) by reusing attention states across different LLM prompts.
Many input prompts have overlapping text segments, such as system messages,
prompt templates, and documents provided for context. Our key insight is that
by precomputing and storing the attention states of these frequently occurring
text segments on the inference server, we can efficiently reuse them when these
segments appear in user prompts. Prompt Cache employs a schema to explicitly
define such reusable text segments, called prompt modules. The schema ensures
positional accuracy during attention state reuse and provides users with an
interface to access cached states in their prompt. Using a prototype
implementation, we evaluate Prompt Cache across several LLMs. We show that
Prompt Cache significantly reduce latency in time-to-first-token, especially
for longer prompts such as document-based question answering and
recommendations. The improvements range from 8x for GPU-based inference to 60x
for CPU-based inference, all while maintaining output accuracy and without the
need for model parameter modifications.
- Abstract(参考訳): 本稿では,LLMプロンプト間の注意状態の再利用により,大規模言語モデル(LLM)の推論を高速化する手法であるPrompt Cacheを提案する。
多くの入力プロンプトは、システムメッセージ、プロンプトテンプレート、コンテキスト用のドキュメントなど、テキストセグメントを重複させています。
私たちの重要な洞察は、これらの頻繁に発生するテキストセグメントの注意状態を推論サーバに事前計算し保存することで、これらのセグメントがユーザのプロンプトに現れる場合に効率的に再利用できるということです。
Prompt Cacheはスキーマを使用して、プロンプトモジュールと呼ばれる再利用可能なテキストセグメントを明示的に定義する。
スキーマは注意状態の再利用中に位置精度を確保し、プロンプトでキャッシュされた状態にアクセスするためのインターフェースを提供する。
プロトタイプ実装を用いて,複数の LLM にまたがる Prompt Cache を評価する。
特にドキュメントベースの質問応答やレコメンデーションなど,より長いプロンプトでは,プロンプトキャッシュによりレイテンシが大幅に低減する。
改善点は、GPUベースの推論では8倍、CPUベースの推論では60倍まで、出力精度を維持しながら、モデルパラメータの変更を必要としない。
関連論文リスト
- FlashBack:Efficient Retrieval-Augmented Language Modeling for Long Context Inference [47.03691582405274]
追加コンテキストパターンによるALMの推論効率を向上させるためのモジュール型ALMである textscFlashBack を提案する。
textscFlashBacksはコンテキストの最後にドキュメントを検索し、KVキャッシュをプリコンパイルする代わりに効率的に活用する。
論文 参考訳(メタデータ) (2024-05-07T07:14:38Z) - XC-Cache: Cross-Attending to Cached Context for Efficient LLM Inference [20.249206904309816]
インコンテキスト学習(ICL)アプローチは典型的には、参照情報に基づいて条件デコーダのみの言語モデルを生成するプロンプトを活用する。
この研究は、エンコーダ・デコーダアーキテクチャにインスパイアされたモデルを導入し、プロンプトなしで参照テキストの条件生成にクロスアテンションを使用することにより、これらの制限に対処する。
質問応答(QA)をテストベッドとして使用し、条件生成能力を評価し、ICLより優れており、微調整された誘導LDMと同等であり、標準KVキャッシュと比較して空間フットプリントを2桁の精度で大幅に削減する。
論文 参考訳(メタデータ) (2024-04-23T18:10:42Z) - ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition [3.659659889927316]
ChunkAttentionは、大きな言語モデルのためのプレフィックス対応のセルフアテンションモジュールである。
複数のリクエストにまたがる一致したプロンプトプレフィックスを検出し、実行時にそのキー/値テンソルをメモリで共有する。
実験によると、ChunkAttentionは、最先端の実装と比較して、自己保持カーネルを3.2-4.8$times$で高速化できる。
論文 参考訳(メタデータ) (2024-02-23T09:29:19Z) - RelayAttention for Efficient Large Language Model Serving with Long
System Prompts [65.00227938792064]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。
これらのシステムプロンプトの処理には、既存の因果注意計算アルゴリズムにおいて、冗長なメモリアクセスが必要となる。
本稿では,DRAMから入力トークンのバッチに対して,これらの隠れ状態を正確に1回だけ読み取ることのできるアテンションアルゴリズムRelayAttentionを提案する。
論文 参考訳(メタデータ) (2024-02-22T18:58:28Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression
for Efficient LLM Inference [83.34219335496073]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - TF-CLIP: Learning Text-free CLIP for Video-based Person
Re-Identification [60.5843635938469]
ビデオベースのReIDのための一段階のテキストフリーCLIP学習フレームワークTF-CLIPを提案する。
より具体的には、テキスト機能を置き換えるために、アイデンティティ固有のシーケンス機能をCLIPメモリとして抽出する。
提案手法は,MARS,LS-VID,iLIDS-VIDの他の最先端手法よりも優れた結果を示す。
論文 参考訳(メタデータ) (2023-12-15T09:10:05Z) - Speech Understanding on Tiny Devices with A Learning Cache [2.7186799067647334]
SpeechCache(SC)は、小さなデバイス向けの音声キャッシュである。
我々は市販のSTM32マイクロコントローラにSCを実装した。
当社のシステムは,デバイス上での入力の45%-90%を解決し,一般的なクラウド音声認識サービスへのオフロードと比較して,平均遅延を最大80%削減する。
論文 参考訳(メタデータ) (2023-11-30T02:15:07Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - PromptBoosting: Black-Box Text Classification with Ten Forward Passes [61.38341243907045]
PromptBoostingは、LMのパラメータ、勾配、隠された表現にアクセスすることなく、ニューラルネットワークモデル(LM)からテキスト分類器を構築するためのクエリ効率のよい手順である。
実験によると、PromptBoostingは複数のブラックボックスのいくつかのショット分類タスクで最先端のパフォーマンスを達成し、既存のブラックボックスメソッドよりも10倍速くトレーニングしながら、少数ショットと標準学習のパラダイムの両方で完全な微調整をマッチまたは上回っている。
論文 参考訳(メタデータ) (2022-12-19T06:04:54Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。