論文の概要: ELIS: Efficient LLM Iterative Scheduling System with Response Length Predictor
- arxiv url: http://arxiv.org/abs/2505.09142v1
- Date: Wed, 14 May 2025 04:50:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.379466
- Title: ELIS: Efficient LLM Iterative Scheduling System with Response Length Predictor
- Title(参考訳): ELIS:応答長予測器を用いた効率的なLLM反復スケジューリングシステム
- Authors: Seungbeom Choi, Jeonghoe Goo, Eunjoo Jeon, Mingyu Yang, Minsung Jang,
- Abstract要約: ELIS (Large Language Models) は、ISRTF(Iterative Shortest Remaining Time First)スケジューラを備えた大規模言語モデル(LLM)のサービスシステムである。
ISRTFスケジューラは、最も短い時間で推論タスクを効率的に管理する。
- 参考スコア(独自算出の注目度): 5.097511974401423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose ELIS, a serving system for Large Language Models (LLMs) featuring an Iterative Shortest Remaining Time First (ISRTF) scheduler designed to efficiently manage inference tasks with the shortest remaining tokens. Current LLM serving systems often employ a first-come-first-served scheduling strategy, which can lead to the "head-of-line blocking" problem. To overcome this limitation, it is necessary to predict LLM inference times and apply a shortest job first scheduling strategy. However, due to the auto-regressive nature of LLMs, predicting the inference latency is challenging. ELIS addresses this challenge by training a response length predictor for LLMs using the BGE model, an encoder-based state-of-the-art model. Additionally, we have devised the ISRTF scheduling strategy, an optimization of shortest remaining time first tailored to existing LLM iteration batching. To evaluate our work in an industrial setting, we simulate streams of requests based on our study of real-world user LLM serving trace records. Furthermore, we implemented ELIS as a cloud-native scheduler system on Kubernetes to evaluate its performance in production environments. Our experimental results demonstrate that ISRTF reduces the average job completion time by up to 19.6%.
- Abstract(参考訳): 本稿では,最も短いトークンで推論タスクを効率的に管理するイテレーティブ・ショート・ストリーニング・タイム・ファースト(ISRTF)スケジューラを特徴とする大規模言語モデル(LLM)のサービスシステムであるELISを提案する。
現在のLLMサービスシステムでは、しばしばファースト・カム・ファーストのスケジューリング戦略を採用しており、「ライン・オブ・ライン・ブロッキング」問題につながる可能性がある。
この制限を克服するためには、LLM推定時間を予測し、最短のジョブファーストスケジューリング戦略を適用する必要がある。
しかし, LLMの自己回帰性のため, 推論遅延の予測は困難である。
ELISは、エンコーダベースの最先端モデルであるBGEモデルを用いて、LLMに対する応答長予測器をトレーニングすることで、この問題に対処する。
さらに,既存のLLM繰り返しバッチ処理に適した最短残時間を最適化した ISRTF スケジューリング戦略を考案した。
産業環境での作業を評価するため,実世界のユーザLLMがトレースレコードを提供するという研究に基づいて,要求のストリームをシミュレートした。
さらに、実運用環境でのパフォーマンスを評価するために、Kubernetes上のクラウドネイティブなスケジューラシステムとしてELISを実装しました。
実験の結果, ISRTFは平均作業完了時間を19.6%削減できることがわかった。
関連論文リスト
- Don't Stop Me Now: Embedding Based Scheduling for LLMs [22.099820814682513]
SRPT(Shortest Remaining Process Time)のようなサイズベースのスケジューリングアルゴリズムは、平均的な要求完了時間を削減することを目的としている。
LLMシステムにおけるメモリオーバーヘッドを考慮した予測型SRPT変種を提案する。
論文 参考訳(メタデータ) (2024-10-01T19:51:07Z) - Efficient LLM Scheduling by Learning to Rank [19.33941579312897]
そこで本研究では,要求の集合における出力長の相対的なランクを,学習者によるランク付けによって予測可能であることを示す。
我々は,LLM推論のための新しいスケジューラを開発し,SJFスケジュールを既存手法よりも高速に近似する。
論文 参考訳(メタデータ) (2024-08-28T13:35:54Z) - LLMs can Schedule [3.435169201271934]
ジョブショップスケジューリング問題(JSSP)は、生産プロセスの最適化において重要なハードルであり続けている。
本稿では,JSSPにおけるLarge Language Models(LLM)の可能性について検討する。
驚くべきことに,LLMに基づくスケジューリングは,他のニューラルアプローチに匹敵する性能を達成できることを示した。
論文 参考訳(メタデータ) (2024-08-13T15:53:58Z) - Efficiency Unleashed: Inference Acceleration for LLM-based Recommender Systems with Speculative Decoding [61.45448947483328]
LLMベースのレコメンダシステム(LASER)の投機的復号化によるロスレス高速化について紹介する。
LASERは、検索効率を高めるためのカスタマイズされた検索プールと、ドラフトトークンの受け入れ率を改善するための緩和検証を備えている。
LASERは公開データセットの3~5倍のスピードアップを実現し、オンラインA/Bテスト中に約67%の計算リソースを節約する。
論文 参考訳(メタデータ) (2024-08-11T02:31:13Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - Efficient Interactive LLM Serving with Proxy Model-based Sequence Length Prediction [8.705908108054878]
大型モデル(LLM)は、多くのドメインにわたるAIアプリケーションの新しい波を駆動している。
LLM出力シーケンス長の予測に光プロキシモデルを用いる投機的ショートストジョブファースト(SSJF)スケジューラを提案する。
論文 参考訳(メタデータ) (2024-04-12T14:46:15Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。