論文の概要: Decentralized Distributed Proximal Policy Optimization (DD-PPO) for High Performance Computing Scheduling on Multi-User Systems
- arxiv url: http://arxiv.org/abs/2505.03946v1
- Date: Tue, 06 May 2025 19:50:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.903648
- Title: Decentralized Distributed Proximal Policy Optimization (DD-PPO) for High Performance Computing Scheduling on Multi-User Systems
- Title(参考訳): 分散型分散プロキシポリシー最適化(DD-PPO)によるマルチユーザシステムにおける高性能計算スケジューリング
- Authors: Matthew Sgambati, Aleksandar Vakanski, Matthew Anderson,
- Abstract要約: 本研究では,分散型分散プロキシポリシー最適化(DD-PPO)アルゴリズムを用いた新しいRLベースのスケジューラを提案する。
DD-PPOアルゴリズムは、各ステップでパラメータ同期を必要とせずに、複数のワーカーにまたがる大規模な分散トレーニングをサポートする。
検証データセットは、1150万以上の実際のHPCジョブトレースを利用して、DD-PPOのパフォーマンスを従来のスケジューリング手法と高度なスケジューリング手法と比較した。
- 参考スコア(独自算出の注目度): 45.62643537023675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Resource allocation in High Performance Computing (HPC) environments presents a complex and multifaceted challenge for job scheduling algorithms. Beyond the efficient allocation of system resources, schedulers must account for and optimize multiple performance metrics, including job wait time and system utilization. While traditional rule-based scheduling algorithms dominate the current deployments of HPC systems, the increasing heterogeneity and scale of those systems is expected to challenge the efficiency and flexibility of those algorithms in minimizing job wait time and maximizing utilization. Recent research efforts have focused on leveraging advancements in Reinforcement Learning (RL) to develop more adaptable and intelligent scheduling strategies. Recent RL-based scheduling approaches have explored a range of algorithms, from Deep Q-Networks (DQN) to Proximal Policy Optimization (PPO), and more recently, hybrid methods that integrate Graph Neural Networks with RL techniques. However, a common limitation across these methods is their reliance on relatively small datasets, and these methods face scalability issues when using large datasets. This study introduces a novel RL-based scheduler utilizing the Decentralized Distributed Proximal Policy Optimization (DD-PPO) algorithm, which supports large-scale distributed training across multiple workers without requiring parameter synchronization at every step. By eliminating reliance on centralized updates to a shared policy, the DD-PPO scheduler enhances scalability, training efficiency, and sample utilization. The validation dataset leveraged over 11.5 million real HPC job traces for comparing DD-PPO performance between traditional and advanced scheduling approaches, and the experimental results demonstrate improved scheduling performance in comparison to both rule-based schedulers and existing RL-based scheduling algorithms.
- Abstract(参考訳): ハイパフォーマンスコンピューティング(HPC)環境におけるリソース割り当ては、ジョブスケジューリングアルゴリズムにおける複雑で多面的な課題である。
システムリソースの効率的な割り当て以外にも、スケジューラはジョブ待ち時間やシステム利用など、複数のパフォーマンスメトリクスを考慮し、最適化する必要があります。
従来のルールベースのスケジューリングアルゴリズムは、現在のHPCシステムのデプロイメントを支配しているが、それらのシステムの異質性やスケールの増大は、ジョブ待ち時間の最小化と利用の最大化において、それらのアルゴリズムの効率性と柔軟性に挑戦することが期待されている。
近年の研究は、強化学習(RL)の進歩を活用して、より適応的でインテリジェントなスケジューリング戦略の開発に重点を置いている。
近年のRLに基づくスケジューリング手法は、ディープQ-Networks(DQN)からPPO(Proximal Policy Optimization)まで幅広いアルゴリズムを探索し、最近ではグラフニューラルネットワークとRL技術を統合するハイブリッド手法も検討されている。
しかし、これらの手法に共通する制限は、比較的小さなデータセットに依存することである。
本研究では,分散分散プロキシポリシー最適化(DD-PPO)アルゴリズムを用いた新しいRLベースのスケジューラを提案する。
DD-PPOスケジューラは、共有ポリシへの集中的な更新を不要にすることで、スケーラビリティ、トレーニング効率、サンプル利用率を向上させる。
検証データセットは,従来のスケジューリング手法と先進的なスケジューリング手法のDD-PPO性能を比較するために,1150万以上の実HPCジョブトレースを利用して,ルールベースのスケジューラと既存のRLベースのスケジューリングアルゴリズムとの比較により,スケジューリング性能の改善を実証した。
関連論文リスト
- Research on Edge Computing and Cloud Collaborative Resource Scheduling Optimization Based on Deep Reinforcement Learning [11.657154571216234]
本研究では,深部強化学習(DRL)を用いたエッジクラウド協調コンピューティングにおける資源スケジューリング最適化の課題に対処する。
DRLに基づく提案手法は,タスク処理効率の向上,全体の処理時間削減,資源利用の向上,タスクマイグレーションの効果的制御を実現する。
論文 参考訳(メタデータ) (2025-02-26T03:05:11Z) - Prediction-Assisted Online Distributed Deep Learning Workload Scheduling in GPU Clusters [24.845122459974466]
本稿では,A-SRPT(Adaptive Shortest-Remaining-Time-first)スケジューリングアルゴリズムを提案する。
ヘテロジニアスディープニューラルネットワーク(DNN)モデルに対応するグラフとして各ジョブをモデル化することにより、A-SRPTはジョブを利用可能なGPUに戦略的に割り当てる。
A-SRPTは複雑なスケジューリング問題を単一マシンのインスタンスにマッピングし、プリエンプティブな "shortest-remaining-processing-time-first" 戦略によって最適に対処する。
論文 参考訳(メタデータ) (2025-01-09T20:19:01Z) - Resource-Adaptive Successive Doubling for Hyperparameter Optimization with Large Datasets on High-Performance Computing Systems [0.4334105740533729]
本稿では,資源適応型逐次二重化アルゴリズム(RASDA)を提案する。
リソース適応型逐次二重化スキームと非同期逐次Halving Algorithm(ASHA)を組み合わせる。
ニューラルネットワーク(NN)のさまざまなタイプに適用され、コンピュータビジョン(CV)、計算流体力学(CFD)、追加製造(AM)ドメインからの大規模なデータセットでトレーニングされる。
論文 参考訳(メタデータ) (2024-12-03T11:25:48Z) - Deep reinforcement learning for machine scheduling: Methodology, the
state-of-the-art, and future directions [2.4541568670428915]
マシンスケジューリングは、製造ルールとジョブ仕様に準拠しながら、マシンへのジョブ割り当てを最適化することを目的としている。
人工知能の重要な構成要素であるDeep Reinforcement Learning (DRL)は、ゲームやロボティクスなど、さまざまな分野において有望であることを示している。
本稿では、DRLに基づくアプローチの総合的なレビューと比較を行い、その方法論、応用、利点、限界を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T22:45:09Z) - Dynamic Scheduling for Federated Edge Learning with Streaming Data [56.91063444859008]
我々は,長期的エネルギー制約のある分散エッジデバイスにおいて,トレーニングデータを時間とともにランダムに生成するフェデレーションエッジ学習(FEEL)システムを検討する。
限られた通信リソースとレイテンシ要件のため、各イテレーションでローカルトレーニングプロセスに参加するのはデバイスのサブセットのみである。
論文 参考訳(メタデータ) (2023-05-02T07:41:16Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - A Memetic Algorithm with Reinforcement Learning for Sociotechnical
Production Scheduling [0.0]
本稿では、フレキシブルジョブショップスケジューリング問題(DRC-FJSSP)に深層強化学習(DRL)を適用したメメティックアルゴリズムを提案する。
産業における研究プロジェクトから、フレキシブルマシン、フレキシブルなヒューマンワーカー、作業能力、セットアップと処理操作、材料到着時間、材料製造の請求書の並列タスク、シーケンス依存のセットアップ時間、人間と機械のコラボレーションにおける(一部)自動化タスクを検討する必要性を認識します。
論文 参考訳(メタデータ) (2022-12-21T11:24:32Z) - Semantic-Aware Collaborative Deep Reinforcement Learning Over Wireless
Cellular Networks [82.02891936174221]
複数のエージェントが無線ネットワーク上で協調できるコラボレーティブディープ強化学習(CDRL)アルゴリズムは有望なアプローチである。
本稿では,リソース制約のある無線セルネットワーク上で,意味的にリンクされたDRLタスクを持つ未学習エージェントのグループを効率的に協調させる,新しい意味認識型CDRL手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:24:47Z) - A Two-stage Framework and Reinforcement Learning-based Optimization
Algorithms for Complex Scheduling Problems [54.61091936472494]
本稿では、強化学習(RL)と従来の運用研究(OR)アルゴリズムを組み合わせた2段階のフレームワークを開発する。
スケジューリング問題は,有限マルコフ決定過程 (MDP) と混合整数計画過程 (mixed-integer programming process) の2段階で解決される。
その結果,本アルゴリズムは,アジャイルな地球観測衛星スケジューリング問題に対して,安定かつ効率的に十分なスケジューリング計画を得ることができた。
論文 参考訳(メタデータ) (2021-03-10T03:16:12Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。