Fugu-MT 論文翻訳(概要): Priority-Aware Preemptive Scheduling for Mixed-Priority Workloads in MoE Inference

論文の概要: Priority-Aware Preemptive Scheduling for Mixed-Priority Workloads in MoE Inference

arxiv url: http://arxiv.org/abs/2503.09304v1
Date: Wed, 12 Mar 2025 11:56:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-13 21:17:52.728114
Title: Priority-Aware Preemptive Scheduling for Mixed-Priority Workloads in MoE Inference
Title（参考訳）: MoE推論における混合Priorityワークロードの優先性を考慮したプリエンプティブスケジューリング
Authors: Mohammad Siavashi, Faezeh Keshmiri Dindarloo, Dejan Kostic, Marco Chiesa,
Abstract要約: 大規模言語モデルは自然言語処理に革命をもたらしたが、データセンターで効率的に処理するのは難しい。我々は、Mixture of Experts(MoE)モデル用に設計された新しい推論システムQLLMを紹介する。 QLLMはエキスパートレベルのプリエンプションを可能にし、LS Time-to-First-Token(TTFT)を最小化しながらBEジョブの実行を遅延させる。
参考スコア（独自算出の注目度）: 4.7730970530715835
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models have revolutionized natural language processing, yet serving them efficiently in data centers remains challenging due to mixed workloads comprising latency-sensitive (LS) and best-effort (BE) jobs. Existing inference systems employ iteration-level first-come-first-served scheduling, causing head-of-line blocking when BE jobs delay LS jobs. We introduce QLLM, a novel inference system designed for Mixture of Experts (MoE) models, featuring a fine-grained, priority-aware preemptive scheduler. QLLM enables expert-level preemption, deferring BE job execution while minimizing LS time-to-first-token (TTFT). Our approach removes iteration-level scheduling constraints, enabling the scheduler to preempt jobs at any layer based on priority. Evaluations on an Nvidia A100 GPU show that QLLM significantly improves performance. It reduces LS TTFT by an average of $65.5\times$ and meets the SLO at up to $7$ requests/sec, whereas the baseline fails to do so under the tested workload. Additionally, it cuts LS turnaround time by up to $12.8\times$ without impacting throughput. QLLM is modular, extensible, and seamlessly integrates with Hugging Face MoE models.
Abstract（参考訳）: 大規模言語モデルは自然言語処理に革命をもたらしたが、レイテンシに敏感な(LS)ジョブとベストプラクティス(BE)ジョブを含む混在するワークロードのため、データセンターで効率的に処理することは依然として困難である。既存の推論システムはイテレーションレベルのファースト・カム・ファースト・サービススケジューリングを採用しており、BEジョブがLSジョブを遅延した場合、ヘッド・オブ・ライン・ブロッキングを引き起こす。我々は、Mixture of Experts(MoE)モデル用に設計された新しい推論システムQLLMを紹介し、細粒度で優先順位対応のプリエンプティブスケジューラを特徴とする。 QLLMはエキスパートレベルのプリエンプションを可能にし、LS Time-to-First-Token(TTFT)を最小化しながらBEジョブの実行を遅延する。このアプローチでは、イテレーションレベルのスケジューリングの制約を取り除き、スケジューラが優先度に基づいて任意のレイヤでジョブをプリエンプトすることができる。 Nvidia A100 GPUの評価によると、QLLMはパフォーマンスを大幅に改善している。 LS TTFTを平均65.5\times$で削減し、SLOを最大7ドル/秒で満たす。さらに、スループットに影響を与えることなく、LSのターンアラウンド時間を最大12.8\times$に削減する。 QLLMはモジュール化され、拡張可能で、Hugging Face MoEモデルとシームレスに統合される。

関連論文リスト

FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving [13.856291757420012]
長期にわたる要求はリソースを独占し、より高いプライオリティの要求を遅らせ、TTFT(Time-to-first-token)サービスレベルの違反を広範囲に発生させる。本稿では,TTFTに最適化されたサービスシステムであるFlowPrefillを提案する。 FlowPrefillは最先端システムと比較して最大出力を最大5.6$times$に改善することを示す。
論文参考訳（メタデータ） (2026-02-18T16:57:45Z)
Semantic-Aware Scheduling for GPU Clusters with Large Language Models [60.14838697778884]
我々は、スケジューラと管理するジョブ間のセマンティックギャップを橋渡しするフレームワークであるSchedMateを提案する。 SchedMateは見過ごされ、構造化されていないデータソース(ソースコード、ランタイムログ、履歴ジョブ)から深い洞察を抽出する。我々は、SchedMateが平均ジョブ完了時間を最大1.91倍に短縮し、スケジューリング性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2025-10-02T02:01:02Z)
CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2025-08-15T07:49:22Z)
ELIS: Efficient LLM Iterative Scheduling System with Response Length Predictor [5.097511974401423]
ELIS (Large Language Models) は、ISRTF(Iterative Shortest Remaining Time First)スケジューラを備えた大規模言語モデル(LLM)のサービスシステムである。 ISRTFスケジューラは、最も短い時間で推論タスクを効率的に管理する。
論文参考訳（メタデータ） (2025-05-14T04:50:00Z)
HELIOS: Adaptive Model And Early-Exit Selection for Efficient LLM Inference Serving [5.698111842478072]
初期のLLMは、後のモデルレイヤをスキップすることで、このトレードオフ空間を効率的にナビゲートします。現在のフレームワークでは、ユーザタスクのモデルが静的に選択され、入力クエリの性質の変化に適応する能力が制限されます。まず、HELIOSショートリストは、候補LLMの集合をリストし、プロンプトのサブセットを用いて評価し、テレメトリデータをリアルタイムで収集する。第2に、HELIOSはこれらの評価から得られた早期出口データを使用して、選択したモデルを限られた数の層に限定的にロードする。
論文参考訳（メタデータ） (2025-04-14T21:30:43Z)
Autellix: An Efficient Serving Engine for LLM Agents as General Programs [59.673243129044465]
大規模言語モデル(LLM)アプリケーションは、単純なチャットボットを超えて、動的で汎用的なエージェントプログラムへと進化している。既存のLLMサービスシステムは、プログラムと呼び出し間の依存関係を無視し、最適化のための大きな機会を欠いている。プログラムを第一級市民として扱い、エンドツーエンドのレイテンシを最小限に抑えるLLMサービスシステムであるAutellixを紹介する。
論文参考訳（メタデータ） (2025-02-19T18:59:30Z)
ALISE: Accelerating Large Language Model Serving with Speculative Scheduling [7.367068885621016]
大規模言語モデル(LLM)は、現代の人工知能(AGI)の展望における革命的な進歩を表している。本稿では, ALISE という新しい効率的な LLM 推論サービスフレームワークを提案する。 ALISEは,AlpacaデータセットとShareGPTデータセットと同じレイテンシ制約の下で,最大1.8xと2.1xの推論処理のスループットを向上することを示す。
論文参考訳（メタデータ） (2024-10-31T00:58:11Z)
LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。 LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文参考訳（メタデータ） (2024-10-22T16:26:05Z)
Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-10-21T01:23:34Z)
Efficient LLM Scheduling by Learning to Rank [19.33941579312897]
そこで本研究では,要求の集合における出力長の相対的なランクを,学習者によるランク付けによって予測可能であることを示す。我々は,LLM推論のための新しいスケジューラを開発し,SJFスケジュールを既存手法よりも高速に近似する。
論文参考訳（メタデータ） (2024-08-28T13:35:54Z)
Queue management for slo-oriented large language model serving [3.0134961904579094]
大規模言語モデル(LLM)サービスのためのキュー管理システムであるQLMを提案する。 QLMは、異なるモデルとSLOをまたいだバッチおよびインタラクティブなリクエストをリクエストキューで維持する。リクエスト待ち時間(RWT)推定器を使用し、リクエストキューでのリクエスト待ち時間を推定する。
論文参考訳（メタデータ） (2024-06-05T21:17:34Z)
Efficient Interactive LLM Serving with Proxy Model-based Sequence Length Prediction [8.705908108054878]
大型モデル(LLM)は、多くのドメインにわたるAIアプリケーションの新しい波を駆動している。 LLM出力シーケンス長の予測に光プロキシモデルを用いる投機的ショートストジョブファースト(SSJF)スケジューラを提案する。
論文参考訳（メタデータ） (2024-04-12T14:46:15Z)
HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文参考訳（メタデータ） (2024-02-14T18:04:36Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。 FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文参考訳（メタデータ） (2023-05-10T06:17:50Z)
Towards Efficient Post-training Quantization of Pre-trained Language Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。 GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文参考訳（メタデータ） (2021-09-30T12:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。