論文の概要: Justitia: Fair and Efficient Scheduling for LLM Applications
- arxiv url: http://arxiv.org/abs/2510.17015v1
- Date: Sun, 19 Oct 2025 21:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.24834
- Title: Justitia: Fair and Efficient Scheduling for LLM Applications
- Title(参考訳): Justitia: LLMアプリケーションのための公平かつ効率的なスケジューリング
- Authors: Mingyan Yang, Guanjie Wang, Manqi Luo, Yifei Liu, Chen Chen, Han Zhao, Yu Feng, Quan Chen, Minyi Guo,
- Abstract要約: 我々は、3つの重要なテクニックを持つ新しいスケジューラであるJustitiaを設計する。
Justitiaは、LLMアプリケーションのサービスコストをメモリ中心の方法でモデル化します。
単純なニューラルネットワークモデルを使用して、軽量で正確な需要予測を行う。
- 参考スコア(独自算出の注目度): 32.900257208449716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of Large Language Models (LLMs), it has been popular to launch a series of LLM inferences -- we call an LLM application -- to better solve real-world problems. When serving those applications in shared GPU servers, the schedulers are expected to attain fast application completions with guaranteed worst-case performance. However, mainstream LLM schedulers fail to behave well for LLM applications -- due to head-of-line blocking or over-constrained resource allocation. In this paper, we propose to serve LLM applications in a fair and also efficient manner. To this end, we design Justitia, a novel scheduler with three key techniques. First, given that memory is prevalently a bottleneck for mainstream inference frameworks like vLLM, Justitia models the service cost of LLM applications in a memory-centric manner. Meanwhile, it uses a simple neural network model to conduct light-weight and also accurate demand prediction. Moreover, Justitia adopts a virtual-time based fair queuing algorithm to reduce the overall performance with guaranteed worst-case delay. We have implemented Justitia atop vLLM, and experimental results involving diverse LLM applications show that it can substantially enhance the scheduling efficiency with fairness preserved.
- Abstract(参考訳): LLM(Large Language Models)の時代、現実の問題を解決するために、LLMアプリケーションと呼ばれる一連のLLM推論をローンチすることが人気だった。
これらのアプリケーションを共有GPUサーバで提供する場合、スケジューラは、最悪のパフォーマンスを保証して、高速なアプリケーション補完を実現することが期待されている。
しかし、メインストリームのLLMスケジューラはLLMアプリケーションではうまく動作しない。
本稿では,LLMアプリケーションを公平かつ効率的な方法で提供することを提案する。
この目的のために、我々は3つの重要なテクニックを持つ新しいスケジューラであるJustitiaを設計する。
まず、メモリがvLLMのような主流の推論フレームワークのボトルネックであることを考えると、JustitiaはLLMアプリケーションのサービスコストをメモリ中心の方法でモデル化します。
一方、軽量で正確な需要予測を行うには、単純なニューラルネットワークモデルを使用する。
さらに、Justitiaは仮想時間に基づくフェアキューアルゴリズムを採用し、最悪ケースの遅延を保証して全体のパフォーマンスを低下させる。
We have implemented Justitia atop vLLM, and experimental results involved various LLM applications show that it can significantly enhance the schedule efficiency with fairness preserved。
関連論文リスト
- Prompt-Aware Scheduling for Low-Latency LLM Serving [4.410280212028576]
本稿では,PLMタスクスケジューラPARSを紹介する。
最短ジョブ優先(SJF)スケジューリングを、ペアのランキングとマージンランキングの損失で近似する。
応答長ベースのタスク順序付けを効果的に予測し、オーバーヘッドを最小限に抑えてレイテンシを低減する。
論文 参考訳(メタデータ) (2025-09-25T07:26:38Z) - ELIS: Efficient LLM Iterative Scheduling System with Response Length Predictor [5.097511974401423]
ELIS (Large Language Models) は、ISRTF(Iterative Shortest Remaining Time First)スケジューラを備えた大規模言語モデル(LLM)のサービスシステムである。
ISRTFスケジューラは、最も短い時間で推論タスクを効率的に管理する。
論文 参考訳(メタデータ) (2025-05-14T04:50:00Z) - Autellix: An Efficient Serving Engine for LLM Agents as General Programs [59.673243129044465]
大規模言語モデル(LLM)アプリケーションは、単純なチャットボットを超えて、動的で汎用的なエージェントプログラムへと進化している。
既存のLLMサービスシステムは、プログラムと呼び出し間の依存関係を無視し、最適化のための大きな機会を欠いている。
プログラムを第一級市民として扱い、エンドツーエンドのレイテンシを最小限に抑えるLLMサービスシステムであるAutellixを紹介する。
論文 参考訳(メタデータ) (2025-02-19T18:59:30Z) - Fast Inference for Augmented Large Language Models [14.195265302357148]
Augmented Large Language Models (LLM)は、APIコールを通じて外部データソースを統合することで、スタンドアロンのLLMの機能を強化する。
SJF(Shortest Job First)のような従来のサイズベースのスケジューリングアルゴリズムは、完了時間の最小化にはあまり効果がない。
拡張LLMのための新しいLLM推論フレームワークであるLAMPSを提案する。
論文 参考訳(メタデータ) (2024-10-23T19:53:30Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - Queue management for slo-oriented large language model serving [3.0134961904579094]
大規模言語モデル(LLM)サービスのためのキュー管理システムであるQLMを提案する。
QLMは、異なるモデルとSLOをまたいだバッチおよびインタラクティブなリクエストをリクエストキューで維持する。
リクエスト待ち時間(RWT)推定器を使用し、リクエストキューでのリクエスト待ち時間を推定する。
論文 参考訳(メタデータ) (2024-06-05T21:17:34Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。