論文の概要: Don't Stop Me Now: Embedding Based Scheduling for LLMs
- arxiv url: http://arxiv.org/abs/2410.01035v1
- Date: Tue, 01 Oct 2024 19:51:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:21:30.652578
- Title: Don't Stop Me Now: Embedding Based Scheduling for LLMs
- Title(参考訳): 今止めるな - LLMの組み込みベースのスケジューリング
- Authors: Rana Shahout, Eran Malach, Chunwei Liu, Weifan Jiang, Minlan Yu, Michael Mitzenmacher,
- Abstract要約: SRPT(Shortest Remaining Process Time)のようなサイズベースのスケジューリングアルゴリズムは、平均的な要求完了時間を削減することを目的としている。
LLMシステムにおけるメモリオーバーヘッドを考慮した予測型SRPT変種を提案する。
- 参考スコア(独自算出の注目度): 22.099820814682513
- License:
- Abstract: Efficient scheduling is crucial for interactive Large Language Model (LLM) applications, where low request completion time directly impacts user engagement. Size-based scheduling algorithms like Shortest Remaining Process Time (SRPT) aim to reduce average request completion time by leveraging known or estimated request sizes and allowing preemption by incoming jobs with shorter service times. However, two main challenges arise when applying size-based scheduling to LLM systems. First, accurately predicting output lengths from prompts is challenging and often resource-intensive, making it impractical for many systems. As a result, the state-of-the-art LLM systems default to first-come, first-served scheduling, which can lead to head-of-line blocking and reduced system efficiency. Second, preemption introduces extra memory overhead to LLM systems as they must maintain intermediate states for unfinished (preempted) requests. In this paper, we propose TRAIL, a method to obtain output predictions from the target LLM itself. After generating each output token, we recycle the embedding of its internal structure as input for a lightweight classifier that predicts the remaining length for each running request. Using these predictions, we propose a prediction-based SRPT variant with limited preemption designed to account for memory overhead in LLM systems. This variant allows preemption early in request execution when memory consumption is low but restricts preemption as requests approach completion to optimize resource utilization. On the theoretical side, we derive a closed-form formula for this SRPT variant in an M/G/1 queue model, which demonstrates its potential value. In our system, we implement this preemption policy alongside our embedding-based prediction method.
- Abstract(参考訳): 低要求完了時間がユーザエンゲージメントに直接影響を与える、対話型大規模言語モデル(LLM)アプリケーションでは、効率的なスケジューリングが不可欠である。
SRPT(Shortest Remaining Process Time)のようなサイズベースのスケジューリングアルゴリズムは、既知のあるいは推定されたリクエストサイズを活用し、より短いサービス時間で入ってくるジョブによるプリエンプションを可能にすることで、平均的な要求完了時間を短縮することを目指している。
しかし、LLMシステムにサイズベースのスケジューリングを適用する際には、2つの大きな課題が生じる。
第一に、プロンプトから出力長を正確に予測することは困難であり、しばしば資源集約であり、多くのシステムでは実用的ではない。
結果として、最先端のLLMシステムは、ファースト・オブ・サーブド・スケジューリングをデフォルトとし、ヘッド・オブ・ラインのブロッキングとシステム効率の低下につながる可能性がある。
第2に、プリエンプションは未完了(プリエンプション)要求の中間状態を維持する必要があるため、LCMシステムにメモリオーバーヘッドを余分に導入する。
本稿では,ターゲットLLM自体から出力予測を求めるTRAILを提案する。
各出力トークンを生成した後、各実行要求に対する残りの長さを予測する軽量分類器の入力として内部構造の埋め込みをリサイクルする。
これらの予測を用いて,LLMシステムにおけるメモリオーバーヘッドを考慮に入れたプリエンプションを限定した予測ベースのSRPT変種を提案する。
この変種は、メモリ消費が低い場合、要求実行の早期のプリエンプションを可能にするが、リクエストがリソース利用を最適化するために完了に近づくと、プリエンプションを制限する。
理論的には、M/G/1キューモデルにおけるこのSRPT変種に対する閉形式式を導出し、そのポテンシャル値を示す。
本システムでは,このプリエンプションポリシーを埋め込み型予測手法と併用して実装する。
関連論文リスト
- Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示す。
本稿では,テキストベースの生成IoT(GIoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - One Queue Is All You Need: Resolving Head-of-Line Blocking in Large Language Model Serving [2.9164564021428845]
大規模言語モデル(LLM)サービスのためのマルチモデルキュー管理フレームワークを提案する。
QLM は複数の LLM Serving Operations (LSOs) の動作をオーケストレーションし、HOL ブロックの削減と達成率の最大化を図っている。
実世界のLLMサービスデータセットを用いた異種GPUデバイスおよびモデルの評価では、QLMはSLO達成率を40-90%改善し、スループットを20-400%向上した。
論文 参考訳(メタデータ) (2024-06-05T21:17:34Z) - Preble: Efficient Distributed Prompt Scheduling for LLM Serving [8.706905652975554]
プロンプトの多くの部分はリクエスト間で反復的であり、その注意結果は再利用できる。
本稿では,プロンプト共有をターゲットとし最適化する最初の分散LLMサービスプラットフォームであるPrebleを提案する。
Prebleは、最先端の平均レイテンシを1.5Xから14.5X、p99を2Xから10Xで上回る。
論文 参考訳(メタデータ) (2024-05-08T06:30:58Z) - Efficient Interactive LLM Serving with Proxy Model-based Sequence Length Prediction [8.705908108054878]
大型モデル(LLM)は、多くのドメインにわたるAIアプリケーションの新しい波を駆動している。
LLM出力シーケンス長の予測に光プロキシモデルを用いる投機的ショートストジョブファースト(SSJF)スケジューラを提案する。
論文 参考訳(メタデータ) (2024-04-12T14:46:15Z) - RelayAttention for Efficient Large Language Model Serving with Long System Prompts [59.50256661158862]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。
これらのシステムプロンプトの処理には、既存の因果注意アルゴリズムにおいて、大量のメモリアクセスが必要である。
本稿では,DRAMから入力トークンのバッチに対して,DRAMから隠れた状態を正確に1回読み取ることのできるアテンションアルゴリズムであるRelayAttentionを提案する。
論文 参考訳(メタデータ) (2024-02-22T18:58:28Z) - Tree-Planner: Efficient Close-loop Task Planning with Large Language Models [63.06270302774049]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。
Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:59:50Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。
FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。
我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文 参考訳(メタデータ) (2023-05-10T06:17:50Z) - Scheduling in Parallel Finite Buffer Systems: Optimal Decisions under
Delayed Feedback [29.177402567437206]
本稿では,遅延認識の限られた情報の下で並列キューシステムにおけるスケジューリング決定をキャプチャする部分観測可能(PO)モデルを提案する。
得られたポリシーが他の限られた情報スケジューリング戦略より優れていることを数値的に示す。
本稿では,Kaggleが提供するネットワークデータを用いてリアルタイム並列処理を最適化する方法を示す。
論文 参考訳(メタデータ) (2021-09-17T13:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。