論文の概要: Pollux: Co-adaptive Cluster Scheduling for Goodput-Optimized Deep
Learning
- arxiv url: http://arxiv.org/abs/2008.12260v2
- Date: Wed, 26 May 2021 06:08:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 08:37:08.767534
- Title: Pollux: Co-adaptive Cluster Scheduling for Goodput-Optimized Deep
Learning
- Title(参考訳): Pollux: グッドプット最適化ディープラーニングのための共適応クラスタスケジューリング
- Authors: Aurick Qiao, Sang Keun Choe, Suhas Jayaram Subramanya, Willie
Neiswanger, Qirong Ho, Hao Zhang, Gregory R. Ganger, Eric P. Xing
- Abstract要約: Polluxは、相互依存要因を適応的に最適化することで、ディープラーニング(DL)クラスタのスケジューリング性能を改善する。
Polluxは、最先端のDLスケジューラと比較して、平均的なジョブ完了時間を37-50%削減する。
- 参考スコア(独自算出の注目度): 61.29990368322931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pollux improves scheduling performance in deep learning (DL) clusters by
adaptively co-optimizing inter-dependent factors both at the per-job level and
at the cluster-wide level. Most existing schedulers expect users to specify the
number of resources for each job, often leading to inefficient resource use.
Some recent schedulers choose job resources for users, but do so without
awareness of how DL training can be re-optimized to better utilize the provided
resources.
Pollux simultaneously considers both aspects. By monitoring the status of
each job during training, Pollux models how their goodput (a novel metric we
introduce that combines system throughput with statistical efficiency) would
change by adding or removing resources. Leveraging these information, Pollux
dynamically (re-)assigns resources to improve cluster-wide goodput, while
respecting fairness and continually optimizing each DL job to better utilize
those resources.
In experiments with real DL jobs and with trace-driven simulations, Pollux
reduces average job completion times by 37-50% relative to state-of-the-art DL
schedulers, even when they are provided with ideal resource and training
configurations for every job. Pollux promotes fairness among DL jobs competing
for resources based on a more meaningful measure of useful job progress, and
reveals a new opportunity for reducing DL cost in cloud environments. Pollux is
implemented and publicly available as part of an open-source project at
https://github.com/petuum/adaptdl.
- Abstract(参考訳): Polluxは、ディープラーニング(DL)クラスタのスケジューリング性能を改善し、ジョブごとのレベルとクラスタ全体のレベルの両方で、依存する要因を適応的に最適化する。
既存のスケジューラの多くは、ユーザが各ジョブのリソース数を指定することを期待しています。
最近のスケジューラは、ユーザのためにジョブリソースを選択するが、提供されたリソースをより活用するためにdlトレーニングをどのように再最適化できるかを意識せずに、そうする。
Polluxは両方の側面を同時に検討する。
トレーニング中の各ジョブの状態を監視することで、poluxは、リソースの追加や削除によって、彼らのグッドプット(システムスループットと統計効率を組み合わせた新しいメトリック)がどのように変化するかをモデル化する。
これらの情報を活用することで、Poluxはリソースを動的に(再)割り当て、クラスタ全体の品質を改善すると同時に、公平さを尊重し、各DLジョブを継続的に最適化し、リソースをよりよく活用する。
実際のDLジョブとトレース駆動シミュレーションを用いた実験では、ジョブ毎に理想的なリソースとトレーニング設定が提供される場合であっても、Polluxは最先端のDLスケジューラと比較して平均ジョブ完了時間を37-50%削減する。
Polluxは、有用なジョブ進捗のより意味のある尺度に基づいて、リソースを競うDLジョブ間の公正性を促進し、クラウド環境におけるDLコストを削減する新たな機会を明らかにする。
Polluxはhttps://github.com/petuum/adaptdl.comのオープンソースプロジェクトの一部として実装され公開されている。
関連論文リスト
- When Does Visual Prompting Outperform Linear Probing for Vision-Language Models? A Likelihood Perspective [57.05315507519704]
本稿では,視覚的プロンプトと線形探索の利点を比較分析するために,ログ類似率(LLR)アプローチを提案する。
本測定は,最大で100倍の時間短縮が可能であり,予測精度は最大91%に達する。
論文 参考訳(メタデータ) (2024-09-03T12:03:45Z) - Prune at the Clients, Not the Server: Accelerated Sparse Training in Federated Learning [56.21666819468249]
クライアントのリソース制約と通信コストは、フェデレートラーニングにおける大規模モデルのトレーニングに大きな問題を引き起こす。
Sparse-ProxSkipを導入し、スパース環境でのトレーニングとアクセラレーションを組み合わせた。
Sparse-ProxSkipの優れた性能を広範な実験で実証する。
論文 参考訳(メタデータ) (2024-05-31T05:21:12Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Taming Resource Heterogeneity In Distributed ML Training With Dynamic
Batching [1.047192732651018]
分散モデルトレーニングの現在の技術は、クラスタが一定のリソース可用性を持つサーバで構成されていることを主に前提としている。
本研究では、分散データ並列学習のための動的手法を開発し、各作業者のミニバッチサイズを可用性とスループットに基づいて調整する。
論文 参考訳(メタデータ) (2023-05-20T15:33:06Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - HeterPS: Distributed Deep Learning With Reinforcement Learning Based
Scheduling in Heterogeneous Environments [37.55572042288321]
ニューラルネットワーク(DNN)のトレーニングプロセスは、多くのスパースな特徴を持つ大規模な入力データを扱うのが一般的である。
Paddle-HeterPSは分散アーキテクチャとReinforcement Reinforcement (RL)ベースのスケジューリング手法で構成されている。
パドル・ヘターPSはスループット(14.5倍高い)と金銭的コスト(312.3%小さい)で最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-11-20T17:09:15Z) - Synergy: Resource Sensitive DNN Scheduling in Multi-Tenant Clusters [10.38396444951436]
深層ニューラルネットワーク(DNN)のトレーニングは、企業とクラウドデータセンターの両方で広く使われているワークロードである。
共有GPUクラスタのためのリソースセンシティブなスケジューラであるSynergyを提案する。
実験の結果,従来のGPUに比例したスケジューリングに比べて,負荷対応のCPUとメモリアロケーションは平均JCTを3.4倍改善できることがわかった。
論文 参考訳(メタデータ) (2021-10-12T15:25:54Z) - A Predictive Autoscaler for Elastic Batch Jobs [8.354712625979776]
Deep Learning、HPC、Sparkといった大規模なバッチジョブは、従来のオンラインサービスよりもはるかに多くの計算リソースとコストを必要とします。
顧客とオーバプロビジョンインスタンスに対して,柔軟なインターフェースを提供するための予測オートスケーラを提案する。
論文 参考訳(メタデータ) (2020-10-10T17:35:55Z) - Effective Elastic Scaling of Deep Learning Workloads [3.345876096131764]
大規模学習プラットフォーム上でのDeep Learning(DL)ジョブの弾性スケーリングについて検討する。
本稿では,DLトレーニングジョブのための新たなリソース割り当て戦略を提案する。これにより,ジョブ実行時間の性能が向上し,クラスタ利用が向上する。
論文 参考訳(メタデータ) (2020-06-24T17:01:09Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。