論文の概要: Stateful Large Language Model Serving with Pensieve
- arxiv url: http://arxiv.org/abs/2312.05516v1
- Date: Sat, 9 Dec 2023 09:55:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 20:24:12.961351
- Title: Stateful Large Language Model Serving with Pensieve
- Title(参考訳): Pensieveを使ったステートフルな大規模言語モデル
- Authors: Lingfan Yu, Jinyang Li
- Abstract要約: Pensieve$はマルチターン会話LLMサービスに最適化されたシステムである。
Pensieve$は、以前処理された履歴をキャッシュすることで、リクエスト間での会話状態を維持する。
我々の評価によると、$Pensieve$はvLLMと比較して1.51-1.95xスループットを実現でき、レイテンシを60-75%削減できる。
- 参考スコア(独自算出の注目度): 3.476173404149727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have recently experienced great success, as
evident in the widespread popularity of ChatGPT. Existing LLM serving systems
are stateless across requests. Consequently, when LLMs are used in the common
setting of multi-turn conversations, a growing log of the conversation history
must be processed alongside any request by the serving system at each turn,
resulting in repeated history processing. In this paper, we design $Pensieve$,
a system optimized for multi-turn conversation LLM serving. $Pensieve$
maintains the conversation state across requests by caching previously
processed history to avoid duplicate processing. $Pensieve$'s multi-tier
caching strategy can utilize both GPU and CPU memory to efficiently store and
retrieve cached data. $Pensieve$ also generalizes the recent PagedAttention
kernel to support attention between multiple input tokens with a GPU cache
spread over non-contiguous memory. Our evaluation shows that $Pensieve$ is able
to achieve 1.51-1.95x throughput compared to vLLM and reduce latency by 60-75%.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ChatGPTが広く普及していることから、最近大きな成功を収めている。
既存のLLMサービスシステムはリクエスト間でステートレスである。
したがって、複数ターン会話の共通設定でllmを使用する場合には、各ターンにサービスシステムからの要求と並行して会話履歴の増大ログを処理しなければならず、繰り返し履歴処理が行われる。
本稿では,マルチターン会話llmサービスに最適化されたシステムであるpensieve$をデザインする。
Pensieve$は、以前処理された履歴をキャッシュすることで、リクエスト間での会話状態を維持する。
Pensieve$のマルチ層キャッシュ戦略は、GPUとCPUメモリの両方を使用して、キャッシュされたデータを効率的に保存および取得することができる。
さらに$Pensieve$は、最近のPagedAttentionカーネルを一般化して、GPUキャッシュを非連続メモリ上に分散した複数の入力トークン間の注意をサポートする。
我々の評価によると、$Pensieve$はvLLMと比較して1.51-1.95xスループットを実現でき、レイテンシを60-75%削減できる。
関連論文リスト
- Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。
私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。
実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文 参考訳(メタデータ) (2024-03-09T07:01:44Z) - RelayAttention for Efficient Large Language Model Serving with Long
System Prompts [65.00227938792064]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。
これらのシステムプロンプトの処理には、既存の因果注意計算アルゴリズムにおいて、冗長なメモリアクセスが必要となる。
本稿では,DRAMから入力トークンのバッチに対して,これらの隠れ状態を正確に1回だけ読み取ることのできるアテンションアルゴリズムRelayAttentionを提案する。
論文 参考訳(メタデータ) (2024-02-22T18:58:28Z) - Efficient Memory Management for Large Language Model Serving with
PagedAttention [44.70922552274376]
大規模言語モデル(LLM)の高スループットサービスには,一度に十分な数の要求が要求される。
既存のシステムでは、各要求のキー値キャッシュ(KVキャッシュ)メモリが巨大で、成長し、動的に縮小するため、苦労している。
本稿では,オペレーティングシステムにおける従来の仮想メモリとページング技術にヒントを得たアテンションアルゴリズムであるPagedAttentionを提案する。
論文 参考訳(メタデータ) (2023-09-12T12:50:04Z) - Recursively Summarizing Enables Long-Term Dialogue Memory in Large
Language Models [75.98775135321355]
長い会話をすると、大きな言語モデル(LLM)は過去の情報を思い出さず、一貫性のない応答を生成する傾向がある。
本稿では,長期記憶能力を高めるために,大規模言語モデル(LLM)を用いて要約/メモリを生成することを提案する。
論文 参考訳(メタデータ) (2023-08-29T04:59:53Z) - H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large
Language Models [110.06476624089679]
メモリフットプリントを大幅に削減する新しいKVキャッシュの実装手法を提案する。
我々のアプローチは、トークンのごく一部が、注意点の計算において、ほとんどの価値に寄与する、という観察に基づいている。
我々は,最近のトークンとH$のバランスを動的に保持するKVキャッシュ消去ポリシーであるヘビーヒッター(H$O)を提案する。
論文 参考訳(メタデータ) (2023-06-24T20:11:14Z) - Fast Distributed Inference Serving for Large Language Models [12.682341873843882]
大規模言語モデル(LLM)は、ChatGPTで実証された対話型AIアプリケーションの新しい世代のパワーである。
これらのアプリケーションのインタラクティブな性質は、モデル推論に低いジョブ完了時間(JCT)を必要とする。
LLMのための分散推論サービスシステムであるFastServeについて述べる。
論文 参考訳(メタデータ) (2023-05-10T06:17:50Z) - History-Aware Hierarchical Transformer for Multi-session Open-domain
Dialogue System [59.78425104243993]
マルチセッションオープンドメイン対話のための履歴認識階層変換器(HAHT)を提案する。
HAHTは歴史会話の長期記憶を維持し、歴史情報を利用して現在の会話状況を理解する。
大規模マルチセッション会話データセットの実験結果は,提案したHAHTモデルがベースラインモデルより一貫して優れていることを示唆している。
論文 参考訳(メタデータ) (2023-02-02T06:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。