Fugu-MT 論文翻訳(概要): Prompt Cache: Modular Attention Reuse for Low-Latency Inference

論文の概要: Prompt Cache: Modular Attention Reuse for Low-Latency Inference

arxiv url: http://arxiv.org/abs/2311.04934v1
Date: Tue, 7 Nov 2023 18:17:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-10 17:08:02.897848
Title: Prompt Cache: Modular Attention Reuse for Low-Latency Inference
Title（参考訳）: Promptキャッシュ: 低レイテンシ推論のためのモジュールアテンション再利用
Authors: In Gim, Guojun Chen, Seung-seob Lee, Nikhil Sarda, Anurag Khandelwal, Lin Zhong
Abstract要約: Prompt Cacheは,異なるプロンプトをまたいだ注意状態の再利用により,大規模言語モデル(LLM)の推論を高速化する手法である。 Prompt Cacheはスキーマを使用して、プロンプトモジュールと呼ばれる再利用可能なテキストセグメントを明示的に定義する。本稿では,特により長いプロンプトに対して,Prompt Cacheがタイム・ツー・ファースト・トークンのレイテンシを著しく低減することを示す。
参考スコア（独自算出の注目度）: 13.242408568763375
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Prompt Cache, an approach for accelerating inference for large language models (LLM) by reusing attention states across different LLM prompts. Many input prompts have overlapping text segments, such as system messages, prompt templates, and documents provided for context. Our key insight is that by precomputing and storing the attention states of these frequently occurring text segments on the inference server, we can efficiently reuse them when these segments appear in user prompts. Prompt Cache employs a schema to explicitly define such reusable text segments, called prompt modules. The schema ensures positional accuracy during attention state reuse and provides users with an interface to access cached states in their prompt. Using a prototype implementation, we evaluate Prompt Cache across several LLMs. We show that Prompt Cache significantly reduce latency in time-to-first-token, especially for longer prompts such as document-based question answering and recommendations. The improvements range from 8x for GPU-based inference to 60x for CPU-based inference, all while maintaining output accuracy and without the need for model parameter modifications.
Abstract（参考訳）: 本稿では,LLMプロンプト間の注意状態の再利用により,大規模言語モデル(LLM)の推論を高速化する手法であるPrompt Cacheを提案する。多くの入力プロンプトは、システムメッセージ、プロンプトテンプレート、コンテキスト用のドキュメントなど、テキストセグメントを重複させています。私たちの重要な洞察は、これらの頻繁に発生するテキストセグメントの注意状態を推論サーバに事前計算し保存することで、これらのセグメントがユーザのプロンプトに現れる場合に効率的に再利用できるということです。 Prompt Cacheはスキーマを使用して、プロンプトモジュールと呼ばれる再利用可能なテキストセグメントを明示的に定義する。スキーマは注意状態の再利用中に位置精度を確保し、プロンプトでキャッシュされた状態にアクセスするためのインターフェースを提供する。プロトタイプ実装を用いて,複数の LLM にまたがる Prompt Cache を評価する。特にドキュメントベースの質問応答やレコメンデーションなど,より長いプロンプトでは,プロンプトキャッシュによりレイテンシが大幅に低減する。改善点は、GPUベースの推論では8倍、CPUベースの推論では60倍まで、出力精度を維持しながら、モデルパラメータの変更を必要としない。

関連論文リスト

KV Cache Recycling to Expand Usable Context Capacity in Low Parameter LLMs [2.261486598306908]
我々は過去のアクティベーションのキャッシュを構築し、文の埋め込みによってエントリを取得し、キャッシュされたプロンプトが新しい入力の正確なプレフィックスであるときに過去のキー値を再利用する。リサイクルとベースラインの実行をレイテンシと出力の忠実度で比較し、トークンの再利用深度をログ化する。テストでは、プレフィックスオーバーラップが存在する場合、出力セマンティクスの材料劣化がなく、オーバーラップがない場合、一貫したスピードアップを観察する。
論文参考訳（メタデータ） (2025-12-04T17:04:43Z)
AttnCache: Accelerating Self-Attention Inference for LLM Prefill via Attention Cache [17.07520167324377]
大規模言語モデル(LLM)は、チャット、コード生成、推論などの生成アプリケーションで広く使われている。我々は,LLM推論のプリフィルステージを高速化するフレームワークであるAttnCacheを提案する。 AttnCacheはCPU上でのエンド・ツー・エンドと2倍のアテンション・スピードアップ、GPU上でのエンド・ツー・エンドと3倍のアテンション・スピードアップを平均で1.2倍の精度で達成する。
論文参考訳（メタデータ） (2025-10-29T21:26:17Z)
SparseVILA: Decoupling Visual Sparsity for Efficient VLM Inference [49.84148668264725]
SparseVILAは効率的なVLM推論のための新しいパラダイムであり、前処理と復号の段階で視覚空間を疎結合する。 AWQ最適化推論パイプライン上に構築されたSparseVILAは、プリフィルの最大4.0倍、デコーディングの2.5倍、長文ビデオタスクの2.6倍のエンドツーエンド高速化を実現している。
論文参考訳（メタデータ） (2025-10-20T17:35:47Z)
ContextCache: Context-Aware Semantic Cache for Multi-Turn Queries in Large Language Models [33.729482204460815]
このデモでは、マルチターン対話のためのコンテキスト対応セマンティックキャッシュシステムであるContextCacheを紹介した。 ContextCacheは、2段階の検索アーキテクチャを使用し、まず現在のクエリ上でベクトルベースの検索を実行し、潜在的なマッチングを識別し、その後、正確なコンテキストマッチングのための自己認識機構を通じて、現在の対話表現と過去の対話表現を統合する。キャッシュされた応答は、直接LLM呼び出しの約10倍のレイテンシを示し、会話アプリケーションに対する計算コストの大幅な削減を可能にする。
論文参考訳（メタデータ） (2025-06-28T07:25:12Z)
dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文参考訳（メタデータ） (2025-05-21T17:32:10Z)
Auditing Prompt Caching in Language Model APIs [77.02079451561718]
大規模言語モデル(LLM)における即時キャッシュによるプライバシリークについて検討する。 OpenAIを含む7つのAPIプロバイダのユーザ間でのグローバルキャッシュ共有を検出します。 OpenAIの埋め込みモデルがデコーダのみのトランスフォーマーであることの証拠が見つかりました。
論文参考訳（メタデータ） (2025-02-11T18:58:04Z)
vCache: Verified Semantic Prompt Caching [75.87215136638828]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文参考訳（メタデータ） (2025-02-06T04:16:20Z)
Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。 K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文参考訳（メタデータ） (2024-11-14T18:54:19Z)
BUZZ: Beehive-structured Sparse KV Cache with Segmented Heavy Hitters for Efficient LLM Inference [2.3587921104010756]
推論速度を高めつつキャッシュメモリ使用量を最小限に抑える新しいKVキャッシュアルゴリズムであるBUZZを提案する。 BUZZはビーハイブ構造化スパースキャッシュを採用し、スライディングウィンドウを組み込んで最近の情報をキャプチャする。 CNN/Daily Mail, XSUM, Wikitext, 10-QAの4つの実世界のデータセット上でBUZZを評価する。
論文参考訳（メタデータ） (2024-10-30T14:53:37Z)
EPIC: Efficient Position-Independent Context Caching for Serving Large Language Models [19.510078997414606]
EPICは、大きな言語モデルのための位置非依存のコンテキストキャッシュを導入している。 EPICはTTFTの最大8倍のスループットと既存のシステムに対する7倍のスループットを提供する。
論文参考訳（メタデータ） (2024-10-20T08:42:29Z)
Leveraging Hallucinations to Reduce Manual Prompt Dependency in Promptable Segmentation [74.04806143723597]
本稿では,プロペラジェネレータとマスクジェネレータを備えたProMaC(Prompt-Mask Cycle Generation framework)を提案する。プロンプトジェネレータは、最初は、テストイメージ上で拡張された文脈知識を抽出するための幻覚を探究する、複数スケールの思考プロンプトの連鎖を使用する。生成されたマスクは、プロンプトジェネレータを反復的にタスク関連の画像領域に集中させ、無関係な幻覚を減らし、より良いプロンプトとマスクを共同で生成する。
論文参考訳（メタデータ） (2024-08-27T17:06:22Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition [3.659659889927316]
ChunkAttentionは、大きな言語モデルのためのプレフィックス対応のセルフアテンションモジュールである。複数のリクエストにまたがる一致したプロンプトプレフィックスを検出し、実行時にそのキー/値テンソルをメモリで共有する。実験の結果、ChunkAttentionは最先端の実装と比較して、自己保持カーネルを3.2-4.8$times$で高速化できることがわかった。
論文参考訳（メタデータ） (2024-02-23T09:29:19Z)
RelayAttention for Efficient Large Language Model Serving with Long System Prompts [59.50256661158862]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。これらのシステムプロンプトの処理には、既存の因果注意アルゴリズムにおいて、大量のメモリアクセスが必要である。本稿では,DRAMから入力トークンのバッチに対して,DRAMから隠れた状態を正確に1回読み取ることのできるアテンションアルゴリズムであるRelayAttentionを提案する。
論文参考訳（メタデータ） (2024-02-22T18:58:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。