論文の概要: DLRover: An Elastic Deep Training Extension with Auto Job Resource
Recommendation
- arxiv url: http://arxiv.org/abs/2304.01468v1
- Date: Tue, 4 Apr 2023 02:13:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 15:42:35.224103
- Title: DLRover: An Elastic Deep Training Extension with Auto Job Resource
Recommendation
- Title(参考訳): DLRover: オートジョブリソースレコメンデーションを備えたElastic Deep Training Extension
- Authors: Qinlong Wang, Bo Sang, Haitao Zhang, Mingjie Tang, Ke Zhang
- Abstract要約: Systemは分散ディープラーニング(DL)フレームワークで、ジョブの初期リソースを自動的に設定し、ジョブのリソースを動的にチューニングしてパフォーマンスを向上させる。
Systemreduces the medium of job completion time by 31%, and the job completion rate by 6%, CPU utilization by 15%, and memory utilization by 20% by hand configuration。
- 参考スコア(独自算出の注目度): 7.827516951013684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The cloud is still a popular platform for distributed deep learning (DL)
training jobs since resource sharing in the cloud can improve resource
utilization and reduce overall costs. However, such sharing also brings
multiple challenges for DL training jobs, e.g., high-priority jobs could
impact, even interrupt, low-priority jobs. Meanwhile, most existing distributed
DL training systems require users to configure the resources (i.e., the number
of nodes and resources like CPU and memory allocated to each node) of jobs
manually before job submission and can not adjust the job's resources during
the runtime. The resource configuration of a job deeply affect this job's
performance (e.g., training throughput, resource utilization, and completion
rate). However, this usually leads to poor performance of jobs since users fail
to provide optimal resource configuration in most cases. \system~is a
distributed DL framework can auto-configure a DL job's initial resources and
dynamically tune the job's resources to win the better performance. With
elastic capability, \system~can effectively adjusts the resources of a job when
there are performance issues detected or a job fails because of faults or
eviction. Evaluations results show \system~can outperform manual well-tuned
resource configurations. Furthermore, in the production Kubernetes cluster of
\company, \system~reduces the medium of job completion time by 31\%, and
improves the job completion rate by 6\%, CPU utilization by 15\%, and memory
utilization by 20\% compared with manual configuration.
- Abstract(参考訳): クラウドでのリソース共有はリソース利用を改善し、全体的なコストを削減することができるため、クラウドは依然として分散ディープラーニング(DL)トレーニングジョブの一般的なプラットフォームです。
しかし、そのような共有はまた、高優先度のジョブが割り込み、低優先度のジョブに影響を及ぼすような、DLトレーニングのジョブに複数の課題をもたらす。
一方、既存の分散dlトレーニングシステムでは、ジョブのリソース(例えば、各ノードに割り当てられたcpuやメモリなど)を、ジョブ提出前に手動で設定する必要があるため、実行時にジョブのリソースを調整することはできない。
ジョブのリソース構成は、このジョブのパフォーマンス(トレーニングスループット、リソース利用率、完了率など)に深く影響します。
しかし、多くの場合、ユーザーは最適なリソース設定を提供していないため、ジョブのパフォーマンスが低下する。
分散dlフレームワークは、dlジョブの初期リソースを自動設定し、ジョブのリソースを動的に調整し、より良いパフォーマンスを得ることができる。
弾力性のある機能により、\system~は、パフォーマンス上の問題が検出されたり、障害や退行のためにジョブが失敗する場合に、ジョブのリソースを効果的に調整できる。
評価結果は、手動で調整されたリソース構成よりも優れた性能を示す。
さらに、‘company’のKubernetesクラスタでは、‘system~reduces the medium of job completion time by 31\%と、ジョブ完了率6\%、CPU使用率15\%、メモリ使用率20\%を手動構成と比較して改善する。
関連論文リスト
- Characterization of Large Language Model Development in the Datacenter [57.49531095113406]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - FFCV: Accelerating Training by Removing Data Bottlenecks [84.89623507733963]
本稿では,機械学習モデルトレーニングを容易かつ高速に行うためのライブラリであるFFCVを紹介する。
トレーニングプロセスから(しばしば微妙な)データのボトルネックを取り除くことで、モデルトレーニングを高速化する。
詳細なインストール手順、ドキュメンテーション、Slackサポートチャネルはhttps://ffcv.io/.com/で公開されている。
論文 参考訳(メタデータ) (2023-06-21T19:06:41Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - Doing More by Doing Less: How Structured Partial Backpropagation
Improves Deep Learning Clusters [9.17259958324486]
ディープラーニングモデルのトレーニングは、リソース集約的で、重要な計算、メモリ、ネットワークリソースを消費する。
本研究では,分散トレーニングにおける個々の作業者のバックプロパゲーション量を制御する手法である構造化部分バックプロパゲーション(SPB)を提案する。
JigSawは,大規模クラスタの効率を最大28%向上できることがわかった。
論文 参考訳(メタデータ) (2021-11-20T20:34:26Z) - Synergy: Resource Sensitive DNN Scheduling in Multi-Tenant Clusters [10.38396444951436]
深層ニューラルネットワーク(DNN)のトレーニングは、企業とクラウドデータセンターの両方で広く使われているワークロードである。
共有GPUクラスタのためのリソースセンシティブなスケジューラであるSynergyを提案する。
実験の結果,従来のGPUに比例したスケジューリングに比べて,負荷対応のCPUとメモリアロケーションは平均JCTを3.4倍改善できることがわかった。
論文 参考訳(メタデータ) (2021-10-12T15:25:54Z) - Low-Resource Domain Adaptation for Compositional Task-Oriented Semantic
Parsing [85.35582118010608]
タスク指向のセマンティックパーシングは仮想アシスタントの重要なコンポーネントである。
近年のディープラーニングの進歩は、より複雑なクエリを解析するいくつかのアプローチを可能にしている。
そこで本研究では,教師付きニューラルネットワークを10倍の精度で高速化する手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:47:53Z) - Pollux: Co-adaptive Cluster Scheduling for Goodput-Optimized Deep
Learning [61.29990368322931]
Polluxは、相互依存要因を適応的に最適化することで、ディープラーニング(DL)クラスタのスケジューリング性能を改善する。
Polluxは、最先端のDLスケジューラと比較して、平均的なジョブ完了時間を37-50%削減する。
論文 参考訳(メタデータ) (2020-08-27T16:56:48Z) - Sequence-to-sequence models for workload interference [1.988145627448243]
データセンターでのジョブのスケジューリングは難しいシナリオであり、ジョブは厳しいスローダウンや実行の失敗につながるリソースを競うことができる。
現在のテクニックは、多くが機械学習とジョブモデリングを含むもので、時間にわたってワークロードの振る舞いを要約に基づいている。
本稿では,リソースや実行時間に対する行動に基づいて,データセンタ上でのジョブの協調スケジューリングをモデル化する手法を提案する。
論文 参考訳(メタデータ) (2020-06-25T14:11:46Z) - Effective Elastic Scaling of Deep Learning Workloads [3.345876096131764]
大規模学習プラットフォーム上でのDeep Learning(DL)ジョブの弾性スケーリングについて検討する。
本稿では,DLトレーニングジョブのための新たなリソース割り当て戦略を提案する。これにより,ジョブ実行時間の性能が向上し,クラスタ利用が向上する。
論文 参考訳(メタデータ) (2020-06-24T17:01:09Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。