論文の概要: Hybrid Learning and Optimization-Based Dynamic Scheduling for DL Workloads on Heterogeneous GPU Clusters
- arxiv url: http://arxiv.org/abs/2512.10271v1
- Date: Thu, 11 Dec 2025 04:19:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.18675
- Title: Hybrid Learning and Optimization-Based Dynamic Scheduling for DL Workloads on Heterogeneous GPU Clusters
- Title(参考訳): 不均一GPUクラスタ上でのDLワークロードのハイブリッド学習と最適化に基づく動的スケジューリング
- Authors: Shruti Dongare, Redwan Ibne Seraj Khan, Hadeel Albahar, Nannan Zhao, Diego Melendez Maita, Ali R. Butt,
- Abstract要約: RLTuneはアプリケーションに依存しない強化学習(RL)ベースのスケジューリングフレームワークで、ヘテロジニアスGPUクラスタ上で動的にディープラーニングジョブを優先順位付けし割り当てる。
RLTuneはGPU使用率を最大20%改善し、キュー遅延を最大81%削減し、JCTを最大70%短縮する。
従来のアプローチとは異なり、RLTuneは、ジョブごとのプロファイリングを必要とせずに、さまざまなワークロードをまたいだ一般化を行う。
- 参考スコア(独自算出の注目度): 0.8445876768837571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern cloud platforms increasingly host large-scale deep learning (DL) workloads, demanding high-throughput, low-latency GPU scheduling. However, the growing heterogeneity of GPU clusters and limited visibility into application characteristics pose major challenges for existing schedulers, which often rely on offline profiling or application-specific assumptions. We present RLTune, an application-agnostic reinforcement learning (RL)-based scheduling framework that dynamically prioritizes and allocates DL jobs on heterogeneous GPU clusters. RLTune integrates RL-driven prioritization with MILP-based job-to-node mapping to optimize system-wide objectives such as job completion time (JCT), queueing delay, and resource utilization. Trained on large-scale production traces from Microsoft Philly, Helios, and Alibaba, RLTune improves GPU utilization by up to 20%, reduces queueing delay by up to 81%, and shortens JCT by as much as 70 percent. Unlike prior approaches, RLTune generalizes across diverse workloads without requiring per-job profiling, making it practical for cloud providers to deploy at scale for more efficient, fair, and sustainable DL workload management.
- Abstract(参考訳): 現代のクラウドプラットフォームでは、大規模ディープラーニング(DL)ワークロードがますます多くなり、高スループットで低レイテンシなGPUスケジューリングが求められている。
しかし、GPUクラスタの不均一性の増加とアプリケーション特性の視認性の制限は、しばしばオフラインプロファイリングやアプリケーション固有の仮定に依存する既存のスケジューラにとって大きな課題となる。
RLTuneはアプリケーションに依存しない強化学習(RL)ベースのスケジューリングフレームワークで、異種GPUクラスタ上でDLジョブを動的に優先順位付けし割り当てる。
RLTuneは、RL駆動の優先順位付けとMILPベースのジョブ-ノードマッピングを統合し、ジョブ完了時間(JCT)、キュー遅延、リソース利用などのシステム全体の目的を最適化する。
Microsoft Philly、Helios、Alibabaの大規模運用トレースに基づいてトレーニングされたRLTuneは、GPU使用率を最大20%改善し、キュー遅延を最大81%削減し、JCTを最大70%短縮する。
従来のアプローチとは異なり、RLTuneは、ジョブごとのプロファイリングを必要とせずに、さまざまなワークロードをまたがって一般化している。
関連論文リスト
- Data Driven Optimization of GPU efficiency for Distributed LLM Adapter Serving [2.6336040306318274]
LLM(Large Language Model)アダプタは、低コストのモデル特殊化を可能にする。
LLMアダプタは、数百のアダプタを同時にホストしなければならない分散サービスシステムにおいて、複雑なキャッシュとスケジューリングの課題を導入する。
本稿では,最小GPU数でワークロードを処理するアダプタ配置を計算したデータ駆動パイプラインを提案する。
論文 参考訳(メタデータ) (2026-02-27T14:22:51Z) - RollArt: Scaling Agentic RL Training via Disaggregated Infrastructure [49.88201789074532]
エージェント強化学習(RL)は、大規模言語モデル(LLM)が自律的な意思決定と長期計画を行うことを可能にする。
分散インフラストラクチャ上でマルチタスクエージェントRLのスループットを最大化する分散システムであるRollArcを提案する。
論文 参考訳(メタデータ) (2025-12-27T11:14:23Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs [48.94639777633359]
RLBoostは、プリエンプティブルGPUリソースを抽出するコスト効率のよいRLトレーニングのための体系的なソリューションである。
RLBoostはトレーニングのスループットを1.51x-1.97x向上し、オンデマンドGPUリソースのみを使用する場合に比べてコスト効率は28%-49%向上した。
論文 参考訳(メタデータ) (2025-10-22T04:19:37Z) - Semantic-Aware Scheduling for GPU Clusters with Large Language Models [60.14838697778884]
我々は、スケジューラと管理するジョブ間のセマンティックギャップを橋渡しするフレームワークであるSchedMateを提案する。
SchedMateは見過ごされ、構造化されていないデータソース(ソースコード、ランタイムログ、履歴ジョブ)から深い洞察を抽出する。
我々は、SchedMateが平均ジョブ完了時間を最大1.91倍に短縮し、スケジューリング性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-10-02T02:01:02Z) - MACE: A Hybrid LLM Serving System with Colocated SLO-aware Continuous Retraining Alignment [14.392166280035122]
エッジサーバにデプロイされる大規模言語モデル(LLM)は、パーソナライズされたアシスタント、レコメンデーション、コンテンツモデレーションといった遅延に敏感なアプリケーションでますます利用されている。
既存のリトレーニング戦略は、モデル更新の遅延、再トレーニングのための過剰コミットリソース、イテレーションレベルのリトレーニングの粒度を見落としている。
我々は,同時推論(プリフィル,デコード)と微調整を同時に行うハイブリッドLLMシステムであるMACEを提案し,知的メモリ管理により,推論スループットを約束しながらタスク性能を最大化する。
論文 参考訳(メタデータ) (2025-09-28T18:45:28Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - Resource Heterogeneity-Aware and Utilization-Enhanced Scheduling for Deep Learning Clusters [26.874684454125152]
本稿では,資源利用を促進できる最適化フレームワークに基づくタスクレベルスケジューラHadarを提案する。
Hadarは、最先端のGavelと比較して、総時間の長さを1.20倍に加速する。
HadarEはDLモデルのトレーニングにおいてかなりのスピードアップを示しており、AmazonのAWS(あるいは当社のラボ)クラスタ上での合計期間を50%(または80%)短縮しています。
論文 参考訳(メタデータ) (2025-03-13T22:13:20Z) - Prediction-Assisted Online Distributed Deep Learning Workload Scheduling in GPU Clusters [24.845122459974466]
本稿では,A-SRPT(Adaptive Shortest-Remaining-Time-first)スケジューリングアルゴリズムを提案する。
ヘテロジニアスディープニューラルネットワーク(DNN)モデルに対応するグラフとして各ジョブをモデル化することにより、A-SRPTはジョブを利用可能なGPUに戦略的に割り当てる。
A-SRPTは複雑なスケジューリング問題を単一マシンのインスタンスにマッピングし、プリエンプティブな "shortest-remaining-processing-time-first" 戦略によって最適に対処する。
論文 参考訳(メタデータ) (2025-01-09T20:19:01Z) - GPU Cluster Scheduling for Network-Sensitive Deep Learning [15.926240223625165]
本稿では分散DL(DDL)ワークロードのための新しいGPUクラスタスケジューラを提案する。
我々のスケジューラは、(i)ジョブ配置と統合を容易にする古典的な遅延スケジューリングアルゴリズム、(ii)ネットワークに敏感なジョブプリエンプション戦略、(iii)遅延タイマーを効果的に遅延スケジューリングするために最適化する「自動チューニング」メカニズムの3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2024-01-29T19:06:08Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Pollux: Co-adaptive Cluster Scheduling for Goodput-Optimized Deep
Learning [61.29990368322931]
Polluxは、相互依存要因を適応的に最適化することで、ディープラーニング(DL)クラスタのスケジューリング性能を改善する。
Polluxは、最先端のDLスケジューラと比較して、平均的なジョブ完了時間を37-50%削減する。
論文 参考訳(メタデータ) (2020-08-27T16:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。