論文の概要: RelayAttention for Efficient Large Language Model Serving with Long
System Prompts
- arxiv url: http://arxiv.org/abs/2402.14808v2
- Date: Thu, 29 Feb 2024 16:09:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 17:33:06.349440
- Title: RelayAttention for Efficient Large Language Model Serving with Long
System Prompts
- Title(参考訳): 長いシステムプロンプトを持つ効率的な大言語モデルのリレーアテンション
- Authors: Lei Zhu, Xinjiang Wang, Wayne Zhang, Rynson W.H. Lau
- Abstract要約: 本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。
これらのシステムプロンプトの処理には、既存の因果注意計算アルゴリズムにおいて、冗長なメモリアクセスが必要となる。
本稿では,DRAMから入力トークンのバッチに対して,これらの隠れ状態を正確に1回だけ読み取ることのできるアテンションアルゴリズムRelayAttentionを提案する。
- 参考スコア(独自算出の注目度): 65.00227938792064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Practical large language model (LLM) services may involve a long system
prompt, which specifies the instructions, examples, and knowledge documents of
the task and is reused across numerous requests. However, the long system
prompt causes throughput/latency bottlenecks as the cost of generating the next
token grows w.r.t. the sequence length. This paper aims to improve the
efficiency of LLM services that involve long system prompts. Our key
observation is that handling these system prompts requires heavily redundant
memory accesses in existing causal attention computation algorithms.
Specifically, for batched requests, the cached hidden states (i.e., key-value
pairs) of system prompts are transferred from off-chip DRAM to on-chip SRAM
multiple times, each corresponding to an individual request. To eliminate such
a redundancy, we propose RelayAttention, an attention algorithm that allows
reading these hidden states from DRAM exactly once for a batch of input tokens.
RelayAttention is a free lunch: it maintains the generation quality while
requiring no model retraining, as it is based on a mathematical reformulation
of causal attention. Code is available at
\url{https://github.com/rayleizhu/vllm-ra}.
- Abstract(参考訳): 実用的大規模言語モデル(llm)サービスには、タスクの指示、例、知識ドキュメントを指定する長いシステムプロンプトが含まれ、多数のリクエストにまたがって再利用される。
しかし、次のトークンを生成するコストがシーケンス長に比例して増加すると、長いシステムがスループット/レイテンシのボトルネックを引き起こす。
本稿では,長いシステムプロンプトを含むLCMサービスの効率化を目的とする。
我々のキーとなる観察は、既存の因果注意計算アルゴリズムにおいて、これらのシステムプロンプトの処理には大量のメモリアクセスが必要であることである。
具体的には、バッチリクエストでは、システムプロンプトのキャッシュされた隠された状態(すなわちキーと値のペア)がオフチップのDRAMからオンチップのSRAMに複数回転送される。
このような冗長性を排除するため,DRAMから複数の入力トークンを正確に1回だけ読み取ることができるアテンションアルゴリズムであるRelayAttentionを提案する。
RelayAttentionは無料のランチであり、因果的注意の数学的再構成に基づくため、モデルの再トレーニングを必要とせず、世代品質を維持している。
コードは \url{https://github.com/rayleizhu/vllm-ra} で入手できる。
関連論文リスト
- Efficient Memory Management for Large Language Model Serving with
PagedAttention [44.70922552274376]
大規模言語モデル(LLM)の高スループットサービスには,一度に十分な数の要求が要求される。
既存のシステムでは、各要求のキー値キャッシュ(KVキャッシュ)メモリが巨大で、成長し、動的に縮小するため、苦労している。
本稿では,オペレーティングシステムにおける従来の仮想メモリとページング技術にヒントを得たアテンションアルゴリズムであるPagedAttentionを提案する。
論文 参考訳(メタデータ) (2023-09-12T12:50:04Z) - Augmenting Language Models with Long-Term Memory [142.04940250657637]
既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。
本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
論文 参考訳(メタデータ) (2023-06-12T15:13:39Z) - Recurrent Attention Networks for Long-text Modeling [14.710722261441822]
本稿では, 自己注意の繰り返し動作を可能にするために, RAN(Recurrent Attention Network) という長文符号化モデルを提案する。
RANはトークンレベルの表現とドキュメントレベルの表現の両方でグローバルなセマンティクスを抽出することができ、シーケンシャルタスクと分類タスクの両方と本質的に互換性がある。
論文 参考訳(メタデータ) (2023-06-12T03:28:33Z) - S$^{3}$: Increasing GPU Utilization during Generative Inference for
Higher Throughput [8.460271675765314]
大きな言語モデル(LLM)でテキストを生成することは、大量のメモリを消費する。
現在のLLMサービスフレームワークの1つは、完全なシーケンスを生成することを保証するために、KVキャッシュの最大シーケンス長を予約している。
出力シーケンスの事前知識を持つシステムの設計は、この問題を軽減することができると論じる。
論文 参考訳(メタデータ) (2023-06-09T16:13:43Z) - Enhancing Large Language Model with Self-Controlled Memory Framework [56.38025154501917]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z) - Parallel Actors and Learners: A Framework for Generating Scalable RL
Implementations [14.432131909590824]
強化学習(Reinforcement Learning, RL)は、ロボット工学、ゲーム、医療などの応用分野において大きな成功を収めている。
現在の実装は、不規則なメモリアクセスや同期オーバーヘッドといった問題により、パフォーマンスが劣っている。
マルチコアシステム上でスケーラブルな強化学習を実現するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T21:00:53Z) - Learning to Rehearse in Long Sequence Memorization [107.14601197043308]
既存の推論タスクは、しばしば、推論中に入力内容が常にアクセス可能であるという重要な仮定を持つ。
メモリ拡張ニューラルネットワークは、人間のような書き込み読み取りメモリを導入し、1回のパスで長い入力シーケンスを圧縮し記憶する。
しかし、2つの重大な欠点がある: 1) メモリを現在の情報から継続的に更新し、必然的に初期の内容を忘れる; 2) 重要な情報を区別せず、全てのコンテンツを平等に扱う。
本稿では,履歴サンプリング装置を用いた自己教師型リハーサルによる長期記憶向上のためのリハーサルメモリを提案する。
論文 参考訳(メタデータ) (2021-06-02T11:58:30Z) - Parallelising the Queries in Bucket Brigade Quantum RAM [69.43216268165402]
量子アルゴリズムは、しばしばデータベースのような方法で格納された情報にアクセスするために量子RAM(QRAM)を使用する。
本稿では,Clifford+Tゲートの並列性を利用して,効率的なクエリ時間を大幅に短縮する手法を提案する。
理論的には、フォールトトレラントバケットの量子RAMクエリは古典的なRAMの速度とほぼ一致する。
論文 参考訳(メタデータ) (2020-02-21T14:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。