Fugu-MT 論文翻訳(概要): Stateful Large Language Model Serving with Pensieve

論文の概要: Stateful Large Language Model Serving with Pensieve

arxiv url: http://arxiv.org/abs/2312.05516v1
Date: Sat, 9 Dec 2023 09:55:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 20:24:12.961351
Title: Stateful Large Language Model Serving with Pensieve
Title（参考訳）: Pensieveを使ったステートフルな大規模言語モデル
Authors: Lingfan Yu, Jinyang Li
Abstract要約: Pensieve$はマルチターン会話LLMサービスに最適化されたシステムである。 Pensieve$は、以前処理された履歴をキャッシュすることで、リクエスト間での会話状態を維持する。我々の評価によると、$Pensieve$はvLLMと比較して1.51-1.95xスループットを実現でき、レイテンシを60-75%削減できる。
参考スコア（独自算出の注目度）: 3.476173404149727
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have recently experienced great success, as evident in the widespread popularity of ChatGPT. Existing LLM serving systems are stateless across requests. Consequently, when LLMs are used in the common setting of multi-turn conversations, a growing log of the conversation history must be processed alongside any request by the serving system at each turn, resulting in repeated history processing. In this paper, we design $Pensieve$, a system optimized for multi-turn conversation LLM serving. $Pensieve$ maintains the conversation state across requests by caching previously processed history to avoid duplicate processing. $Pensieve$'s multi-tier caching strategy can utilize both GPU and CPU memory to efficiently store and retrieve cached data. $Pensieve$ also generalizes the recent PagedAttention kernel to support attention between multiple input tokens with a GPU cache spread over non-contiguous memory. Our evaluation shows that $Pensieve$ is able to achieve 1.51-1.95x throughput compared to vLLM and reduce latency by 60-75%.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ChatGPTが広く普及していることから、最近大きな成功を収めている。既存のLLMサービスシステムはリクエスト間でステートレスである。したがって、複数ターン会話の共通設定でllmを使用する場合には、各ターンにサービスシステムからの要求と並行して会話履歴の増大ログを処理しなければならず、繰り返し履歴処理が行われる。本稿では,マルチターン会話llmサービスに最適化されたシステムであるpensieve$をデザインする。 Pensieve$は、以前処理された履歴をキャッシュすることで、リクエスト間での会話状態を維持する。 Pensieve$のマルチ層キャッシュ戦略は、GPUとCPUメモリの両方を使用して、キャッシュされたデータを効率的に保存および取得することができる。さらに$Pensieve$は、最近のPagedAttentionカーネルを一般化して、GPUキャッシュを非連続メモリ上に分散した複数の入力トークン間の注意をサポートする。我々の評価によると、$Pensieve$はvLLMと比較して1.51-1.95xスループットを実現でき、レイテンシを60-75%削減できる。

関連論文リスト

Accelerating Language Model Workflows with Prompt Choreography [15.03063157222079]
本稿では,動的でグローバルなKVキャッシュを維持することにより,LLMを効率的に実行するためのフレームワークであるPrompt Choreographyを紹介する。各LSMコールは、以前エンコードされたメッセージの任意の順序で順序付けされたサブセットに対応することができる。 Prompt Choreographyはメッセージ単位のレイテンシを大幅に削減する。
論文参考訳（メタデータ） (2025-12-28T19:21:11Z)
MemLoRA: Distilling Expert Adapters for On-Device Memory Systems [71.32550994522738]
メモリ拡張大言語モデル(LLM)は対話中に顕著な一貫性を示す。 MemLoRAは、小さなVision-Language Modelを統合する新しいメモリシステムである。 VLM統合MemLoRA-Vはキャプションベースのアプローチで大幅に改善されている。
論文参考訳（メタデータ） (2025-12-04T12:56:30Z)
LoopServe: An Adaptive Dual-phase LLM Inference Acceleration System for Multi-Turn Dialogues [55.332261548836485]
LoopServeは、多ターン対話における大規模言語モデルのための適応的な二相推論フレームワークである。既存のベースラインに比べて一貫して優れた効果を発揮する。これは、幅広い長文対話タスクにおける推論を著しく加速する。
論文参考訳（メタデータ） (2025-07-18T06:12:08Z)
ContextCache: Context-Aware Semantic Cache for Multi-Turn Queries in Large Language Models [33.729482204460815]
このデモでは、マルチターン対話のためのコンテキスト対応セマンティックキャッシュシステムであるContextCacheを紹介した。 ContextCacheは、2段階の検索アーキテクチャを使用し、まず現在のクエリ上でベクトルベースの検索を実行し、潜在的なマッチングを識別し、その後、正確なコンテキストマッチングのための自己認識機構を通じて、現在の対話表現と過去の対話表現を統合する。キャッシュされた応答は、直接LLM呼び出しの約10倍のレイテンシを示し、会話アプリケーションに対する計算コストの大幅な削減を可能にする。
論文参考訳（メタデータ） (2025-06-28T07:25:12Z)
Towards Multi-Granularity Memory Association and Selection for Long-Term Conversational Agents [73.77930932005354]
我々は,多粒度アソシエーション,適応選択,検索を構築することで,メモリ統合を向上するフレームワークであるMemGASを提案する。 MemGASは多粒度メモリユニットに基づいており、ガウス混合モデルを用いて新しい記憶と過去の記憶をクラスタリングし関連付けている。 4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2025-05-26T06:13:07Z)
A Generative Caching System for Large Language Models [1.2132389187658934]
キャッシングは、大きな言語モデル(LLM)にアクセスする上で、大きなメリットをもたらす可能性がある。本稿では,LLMを用いたユーザエクスペリエンス向上のための新しいキャッシングシステムを提案する。生成キャッシングでは、複数のキャッシュされたレスポンスを合成して、これまで見たことのないクエリに対する回答を提供することができます。
論文参考訳（メタデータ） (2025-03-22T01:17:56Z)
GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching [0.0]
GPT Semantic Cacheは、インメモリストレージ(Redis)におけるクエリ埋め込みのセマンティックキャッシュを利用する方法である。提案手法は意味論的に類似した質問を効果的に識別し,大規模言語モデルに対する冗長なAPI呼び出しを伴わずに,事前生成応答の検索を可能にする。この技術は運用コストを削減し、応答時間を短縮し、LCMを利用したアプリケーションの効率を向上させる。
論文参考訳（メタデータ） (2024-11-08T02:21:19Z)
BUZZ: Beehive-structured Sparse KV Cache with Segmented Heavy Hitters for Efficient LLM Inference [2.3587921104010756]
推論速度を高めつつキャッシュメモリ使用量を最小限に抑える新しいKVキャッシュアルゴリズムであるBUZZを提案する。 BUZZはビーハイブ構造化スパースキャッシュを採用し、スライディングウィンドウを組み込んで最近の情報をキャプチャする。 CNN/Daily Mail, XSUM, Wikitext, 10-QAの4つの実世界のデータセット上でBUZZを評価する。
論文参考訳（メタデータ） (2024-10-30T14:53:37Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文参考訳（メタデータ） (2024-03-09T07:01:44Z)
Query-OPT: Optimizing Inference of Large Language Models via Multi-Query Instructions in Meeting Summarization [7.674972936853123]
我々は,同一の入力コンテキストに対するクエリを1つのプロンプトで組み合わせて,繰り返し呼び出しを最小限に抑える方法が,要約の達成に有効かどうかを検討する。予測フォーマットでの応答生成における100%の信頼性は、通常、特定のクローズドソース LLM に制限される。
論文参考訳（メタデータ） (2024-02-29T19:00:47Z)
RelayAttention for Efficient Large Language Model Serving with Long System Prompts [59.50256661158862]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。これらのシステムプロンプトの処理には、既存の因果注意アルゴリズムにおいて、大量のメモリアクセスが必要である。本稿では,DRAMから入力トークンのバッチに対して,DRAMから隠れた状態を正確に1回読み取ることのできるアテンションアルゴリズムであるRelayAttentionを提案する。
論文参考訳（メタデータ） (2024-02-22T18:58:28Z)
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文参考訳（メタデータ） (2024-02-14T18:54:56Z)
Efficient Memory Management for Large Language Model Serving with PagedAttention [44.70922552274376]
大規模言語モデル(LLM)の高スループットサービスには,一度に十分な数の要求が要求される。既存のシステムでは、各要求のキー値キャッシュ(KVキャッシュ)メモリが巨大で、成長し、動的に縮小するため、苦労している。本稿では,オペレーティングシステムにおける従来の仮想メモリとページング技術にヒントを得たアテンションアルゴリズムであるPagedAttentionを提案する。
論文参考訳（メタデータ） (2023-09-12T12:50:04Z)
Recursively Summarizing Enables Long-Term Dialogue Memory in Large Language Models [75.98775135321355]
長い会話をすると、大きな言語モデル(LLM)は過去の情報を思い出さず、一貫性のない応答を生成する傾向がある。本稿では,長期記憶能力を高めるために,大規模言語モデル(LLM)を用いて要約/メモリを生成することを提案する。
論文参考訳（メタデータ） (2023-08-29T04:59:53Z)
H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models [110.06476624089679]
メモリフットプリントを大幅に削減する新しいKVキャッシュの実装手法を提案する。我々のアプローチは、トークンのごく一部が、注意点の計算において、ほとんどの価値に寄与する、という観察に基づいている。我々は,最近のトークンとH$のバランスを動的に保持するKVキャッシュ消去ポリシーであるヘビーヒッター(H$O)を提案する。
論文参考訳（メタデータ） (2023-06-24T20:11:14Z)
LeadCache: Regret-Optimal Caching in Networks [8.208569626646034]
本稿では、Follow-the-Perturbed-Leaderパラダイムに基づく効率的なオンラインキャッシュポリシーを提案する。我々は、$textttLeadCache$が、ユーザの数である$tildeO(n3/8)まで、後悔の最適であることを示す。
論文参考訳（メタデータ） (2020-09-17T12:13:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。