論文の概要: Network Contention-Aware Cluster Scheduling with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.20209v1
- Date: Tue, 31 Oct 2023 06:17:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 16:23:57.287167
- Title: Network Contention-Aware Cluster Scheduling with Reinforcement Learning
- Title(参考訳): 強化学習によるネットワーク競合対応クラスタスケジューリング
- Authors: Junyeol Ryu, Jeongyoon Eo
- Abstract要約: 強化学習を用いたGPUクラスタにおけるネットワーク競合に対する新しいアプローチを提案する。
提案手法は,平均作業完了時間を最大18.2%削減し,テール作業完了時間を最大20.7%削減する。
- 参考スコア(独自算出の注目度): 0.10878040851637999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With continuous advances in deep learning, distributed training is becoming
common in GPU clusters. Specifically, for emerging workloads with diverse
amounts, ratios, and patterns of communication, we observe that network
contention can significantly degrade training throughput. However, widely used
scheduling policies often face limitations as they are agnostic to network
contention between jobs. In this paper, we present a new approach to mitigate
network contention in GPU clusters using reinforcement learning. We formulate
GPU cluster scheduling as a reinforcement learning problem and opt to learn a
network contention-aware scheduling policy that efficiently captures contention
sensitivities and dynamically adapts scheduling decisions through continuous
evaluation and improvement. We show that compared to widely used scheduling
policies, our approach reduces average job completion time by up to 18.2\% and
effectively cuts the tail job completion time by up to 20.7\% while allowing a
preferable trade-off between average job completion time and resource
utilization.
- Abstract(参考訳): ディープラーニングの継続的な進歩により、GPUクラスタでは分散トレーニングが一般的になっています。
具体的には、多様な量、比率、通信パターンを持つ新興ワークロードに対して、ネットワーク競合がトレーニングスループットを著しく低下させる可能性があることを観察する。
しかし、広く使われているスケジューリングポリシーは、ジョブ間のネットワーク競合を知らないため、しばしば制限に直面します。
本稿では,強化学習を用いたgpuクラスタにおけるネットワーク競合を軽減する新しい手法を提案する。
本稿では,gpuクラスタスケジューリングを強化学習問題として定式化し,コンテンション感受性を効果的に捉え,継続的な評価と改善を通じてスケジュール決定を動的に適応させるネットワークコンテンションアウェアスケジューリングポリシを学習する。
提案手法は,広く使用されているスケジューリングポリシと比較して,平均ジョブ完了時間を最大18.2\%削減し,テールジョブ完了時間を最大20.7\%削減し,平均ジョブ完了時間とリソース利用とのトレードオフを良好に実現している。
関連論文リスト
- GPU Cluster Scheduling for Network-Sensitive Deep Learning [19.344426053952464]
本稿では分散DL(DDL)ワークロードのための新しいGPUクラスタスケジューラを提案する。
我々のスケジューラは、(i)ジョブ配置と統合を容易にする古典的な遅延スケジューリングアルゴリズム、(ii)ネットワークに敏感なジョブプリエンプション戦略、(iii)遅延タイマーを効果的に遅延スケジューリングするために最適化する「自動チューニング」メカニズムの3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2024-01-29T19:06:08Z) - Dynamic Scheduling for Federated Edge Learning with Streaming Data [56.91063444859008]
我々は,長期的エネルギー制約のある分散エッジデバイスにおいて,トレーニングデータを時間とともにランダムに生成するフェデレーションエッジ学習(FEEL)システムを検討する。
限られた通信リソースとレイテンシ要件のため、各イテレーションでローカルトレーニングプロセスに参加するのはデバイスのサブセットのみである。
論文 参考訳(メタデータ) (2023-05-02T07:41:16Z) - Scheduling Inference Workloads on Distributed Edge Clusters with
Reinforcement Learning [11.007816552466952]
本稿では,エッジネットワークにおける予測クエリを短時間でスケジューリングする問題に焦点をあてる。
シミュレーションにより,大規模ISPの現実的なネットワーク設定とワークロードにおけるいくつかのポリシーを解析する。
我々は、強化学習に基づくスケジューリングアルゴリズムASETを設計し、システム条件に応じてその決定を適応させることができる。
論文 参考訳(メタデータ) (2023-01-31T13:23:34Z) - Doing More by Doing Less: How Structured Partial Backpropagation
Improves Deep Learning Clusters [9.17259958324486]
ディープラーニングモデルのトレーニングは、リソース集約的で、重要な計算、メモリ、ネットワークリソースを消費する。
本研究では,分散トレーニングにおける個々の作業者のバックプロパゲーション量を制御する手法である構造化部分バックプロパゲーション(SPB)を提案する。
JigSawは,大規模クラスタの効率を最大28%向上できることがわかった。
論文 参考訳(メタデータ) (2021-11-20T20:34:26Z) - Joint Client Scheduling and Resource Allocation under Channel
Uncertainty in Federated Learning [47.97586668316476]
無線ネットワーク上のフェデレートラーニング(FL)は、クライアントサーバの接続性とクライアントのローカル計算能力の信頼性に依存する。
本稿では、FLを用いたモデルトレーニングの性能を高めるため、クライアントスケジューリングとリソースブロック(RB)割り当ての問題について検討する。
提案手法は,最先端クライアントスケジューリングやRBアロケーション手法と比較して,トレーニング精度損失のギャップを最大40.7%削減する。
論文 参考訳(メタデータ) (2021-06-12T15:18:48Z) - A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-06-08T16:27:04Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - All at Once Network Quantization via Collaborative Knowledge Transfer [56.95849086170461]
オールオンス量子化ネットワークを効率的にトレーニングするための新しい共同知識伝達アプローチを開発しています。
具体的には、低精度の学生に知識を伝達するための高精度のエンクォータを選択するための適応的選択戦略を提案する。
知識を効果的に伝達するために,低精度の学生ネットワークのブロックを高精度の教師ネットワークのブロックにランダムに置き換える動的ブロックスワッピング法を開発した。
論文 参考訳(メタデータ) (2021-03-02T03:09:03Z) - Graph-Based Neural Network Models with Multiple Self-Supervised
Auxiliary Tasks [79.28094304325116]
グラフ畳み込みネットワークは、構造化されたデータポイント間の関係をキャプチャするための最も有望なアプローチである。
マルチタスク方式でグラフベースニューラルネットワークモデルを学習するための3つの新しい自己教師付き補助タスクを提案する。
論文 参考訳(メタデータ) (2020-11-14T11:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。