論文の概要: EWSJF: An Adaptive Scheduler with Hybrid Partitioning for Mixed-Workload LLM Inference
- arxiv url: http://arxiv.org/abs/2601.21758v1
- Date: Thu, 29 Jan 2026 14:14:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.880716
- Title: EWSJF: An Adaptive Scheduler with Hybrid Partitioning for Mixed-Workload LLM Inference
- Title(参考訳): EWSJF:混合負荷LEM推論のためのハイブリッド分割型適応スケジューリング
- Authors: Bronislav Sidik, Chaya Levi, Joseph Kampeas,
- Abstract要約: EWSJF(Effective Workload-based Shortest Job First)は、ワークロード構造をリアルタイムで学習し、公平性とスループットを共同で改善する。
EWSJFは、エンドツーエンドのスループットを30%以上改善し、FCFSと比較して、短い要求に対して平均的なタイム・ツー・ファースト・トークンを最大4倍削減する。
- 参考スコア(独自算出の注目度): 1.7969777786551429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Serving Large Language Models (LLMs) under mixed workloads--short, latency-sensitive interactive queries alongside long, throughput-oriented batch requests--poses a fundamental scheduling challenge. Standard First-Come, First-Served (FCFS) policies suffer from severe head-of-line blocking, leading to high tail latency and underutilized hardware. We introduce EWSJF (Effective Workload-based Shortest Job First), an adaptive request-level scheduler that learns workload structure in real time to jointly improve fairness and throughput. EWSJF operates upstream of execution-level schedulers and integrates four components: (1) Refine-and-Prune, an unsupervised partitioning algorithm that discovers performance-homogeneous request groups; (2) Dynamic Queue Routing for assigning requests to these groups; (3) Density-Weighted Scoring, a context-aware prioritization function balancing urgency and fairness; and (4) Bayesian Meta-Optimization, which continuously tunes scoring and partitioning parameters based on live performance feedback. Implemented in vLLM, EWSJF improves end-to-end throughput by over 30% and reduces average Time-To-First-Token for short requests by up to 4x compared to FCFS. These results demonstrate that adaptive, learning-based request scheduling is a critical missing layer for efficient and responsive LLM serving. Implementation available at https://anonymous.4open.science/r/vllm_0110-32D8.
- Abstract(参考訳): 大規模言語モデル(LLM)を、短時間でレイテンシに敏感な対話型クエリと、長いスループット指向のバッチリクエストで実行することは、基本的なスケジューリング課題となる。
標準の First-Come, First-Served (FCFS) ポリシーはラインのヘッド・オブ・ラインのブロッキングに苦しむ。
EWSJF(Effective Workload-based Shortest Job First)は、適応的な要求レベルのスケジューラで、ワークロード構造をリアルタイムで学習し、公平性とスループットを両立させる。
EWSJFは,実行レベルのスケジューラの上流で動作し,(1)パフォーマンス均質な要求グループを検出する非教師付きパーティショニングアルゴリズムであるRefine-and-Prune,(2)これらのグループに要求を割り当てる動的キュールーティング,(3)緊急性と公正性のバランスをとるコンテキスト対応優先度付け機能であるRe density-Weighted Scoring,(4)ベイズ的メタ最適化,4つのコンポーネントを統合する。
vLLMで実装されたEWSJFは、エンドツーエンドのスループットを30%以上改善し、短いリクエストに対する平均タイム・ツー・ファースト・トークンをFCFSに比べて最大4倍削減する。
これらの結果から,適応的,学習に基づく要求スケジューリングは,効率よく応答性のあるLLMサービスにとって重要な欠落層であることが示された。
実装はhttps://anonymous.4open.science/r/vllm_0110-32D8で公開されている。
関連論文リスト
- HALO: Semantic-Aware Distributed LLM Inference in Lossy Edge Network [50.33808558714122]
エッジでの大規模言語モデル(LLM)推論は、ユーザのプライバシを保護すると同時に、サービスの応答性を促進する。
損失エッジネットワークにおける分散LLM推論を向上する新しいフレームワークであるHALOを提案する。
Raspberry Piクラスタによる実験の結果、HALOは信頼性の低いネットワーク条件下でLLaMAシリーズLLMの3.41倍のエンドツーエンドのスピードアップを達成した。
論文 参考訳(メタデータ) (2026-01-16T07:37:23Z) - Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - Prompt-Aware Scheduling for Low-Latency LLM Serving [4.410280212028576]
本稿では,PLMタスクスケジューラPARSを紹介する。
最短ジョブ優先(SJF)スケジューリングを、ペアのランキングとマージンランキングの損失で近似する。
応答長ベースのタスク順序付けを効果的に予測し、オーバーヘッドを最小限に抑えてレイテンシを低減する。
論文 参考訳(メタデータ) (2025-09-25T07:26:38Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Apt-Serve: Adaptive Request Scheduling on Hybrid Cache for Scalable LLM Inference Serving [22.66354939370058]
Apt-Serveは、大規模言語モデル(LLM)推論サービスシステムにおける効果的なスループットを高めるために設計されたフレームワークである。
新たなハイブリッドキャッシュスキームでは、KVキャッシュとメモリ効率の高い隠れキャッシュを組み合わせることで、再利用可能な入力隠れ状態ベクタを実現し、バッチサイズを大きくし、要求を改善する。
Apt-Serveは,最先端の推論サービスシステムと比較して,スループットが最大8.8倍向上することを示す。
論文 参考訳(メタデータ) (2025-04-10T06:51:23Z) - ALISE: Accelerating Large Language Model Serving with Speculative Scheduling [7.367068885621016]
大規模言語モデル(LLM)は、現代の人工知能(AGI)の展望における革命的な進歩を表している。
本稿では, ALISE という新しい効率的な LLM 推論サービスフレームワークを提案する。
ALISEは,AlpacaデータセットとShareGPTデータセットと同じレイテンシ制約の下で,最大1.8xと2.1xの推論処理のスループットを向上することを示す。
論文 参考訳(メタデータ) (2024-10-31T00:58:11Z) - Efficient Interactive LLM Serving with Proxy Model-based Sequence Length Prediction [8.705908108054878]
大型モデル(LLM)は、多くのドメインにわたるAIアプリケーションの新しい波を駆動している。
LLM出力シーケンス長の予測に光プロキシモデルを用いる投機的ショートストジョブファースト(SSJF)スケジューラを提案する。
論文 参考訳(メタデータ) (2024-04-12T14:46:15Z) - Client Orchestration and Cost-Efficient Joint Optimization for
NOMA-Enabled Hierarchical Federated Learning [55.49099125128281]
半同期クラウドモデルアグリゲーションの下で非直交多重アクセス(NOMA)を実現するHFLシステムを提案する。
提案手法は,HFLの性能改善と総コスト削減に関するベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-03T13:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。