論文の概要: CrossoverScheduler: Overlapping Multiple Distributed Training
Applications in a Crossover Manner
- arxiv url: http://arxiv.org/abs/2103.07974v1
- Date: Sun, 14 Mar 2021 17:01:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 04:07:58.915968
- Title: CrossoverScheduler: Overlapping Multiple Distributed Training
Applications in a Crossover Manner
- Title(参考訳): CrossoverScheduler: クロスオーバーマナーで複数の分散トレーニングアプリケーションをオーバーラップする
- Authors: Cheng Luo, Lei Qu, Youshan Miao, Peng Cheng, Yongqiang Xiong
- Abstract要約: 本稿では,分散トレーニングアプリケーションの通信サイクルを他のアプリケーションで満たすアルゴリズムであるcrossoverschedulerを提案する。
さまざまな分散タスクの実験から、CrossoverSchedulerはImageNetデータセット上の画像分類タスクの20%のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 10.152968714099558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributed deep learning workloads include throughput-intensive training
tasks on the GPU clusters, where the Distributed Stochastic Gradient Descent
(SGD) incurs significant communication delays after backward propagation,
forces workers to wait for the gradient synchronization via a centralized
parameter server or directly in decentralized workers. We present
CrossoverScheduler, an algorithm that enables communication cycles of a
distributed training application to be filled by other applications through
pipelining communication and computation. With CrossoverScheduler, the running
performance of distributed training can be significantly improved without
sacrificing convergence rate and network accuracy. We achieve so by introducing
Crossover Synchronization which allows multiple distributed deep learning
applications to time-share the same GPU alternately. The prototype of
CrossoverScheduler is built and integrated with Horovod. Experiments on a
variety of distributed tasks show that CrossoverScheduler achieves 20% \times
speedup for image classification tasks on ImageNet dataset.
- Abstract(参考訳): 分散ディープラーニングのワークロードには、GPUクラスタ上のスループット集約型トレーニングタスクが含まれる。分散確率勾配日射(Distributed Stochastic Gradient Descent, SGD)は、後方伝播後の通信遅延を大幅に増大させる。
本稿では,分散トレーニングアプリケーションの通信サイクルを,パイプライン通信と計算を通じて他のアプリケーションで満たすアルゴリズムであるcrossoverschedulerを提案する。
CrossoverSchedulerでは、収束率とネットワーク精度を犠牲にすることなく、分散トレーニングの実行性能を著しく向上させることができる。
我々は、複数の分散ディープラーニングアプリケーションが同じGPUを交互にタイムシェアできるクロスオーバー同期を導入することで実現した。
CrossoverSchedulerのプロトタイプはHorovodと構築および統合されています。
さまざまな分散タスクの実験から、CrossoverSchedulerはImageNetデータセット上の画像分類タスクの20%のスピードアップを実現している。
関連論文リスト
- Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - Communication-Free Distributed GNN Training with Vertex Cut [63.22674903170953]
CoFree-GNNは、コミュニケーションのないトレーニングを実装することで、トレーニングプロセスを大幅に高速化する、分散GNNトレーニングフレームワークである。
我々は、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。
論文 参考訳(メタデータ) (2023-08-06T21:04:58Z) - Accelerating Distributed K-FAC with Smart Parallelism of Computing and
Communication Tasks [13.552262050816616]
Kronecker-Factored Approximate Curvature (KFAC)は、深層モデルのトレーニングにおいて最も効率的な近似アルゴリズムの1つである。
しかし、KFACでモデルをトレーニングするためにGPUクラスタを活用すると、大規模な計算が発生すると同時に、イテレーション毎に余分な通信が導入される。
そこで我々は,D-KFACを提案する。
論文 参考訳(メタデータ) (2021-07-14T08:01:07Z) - Sync-Switch: Hybrid Parameter Synchronization for Distributed Deep
Learning [10.196574441542646]
Gradient Descent(SGD)は、分散クラスタでディープニューラルネットワークをトレーニングする事実上の方法となっている。
トレーニングスループットとモデルの精度を決定する上で重要な要因はパラメータ同期プロトコルの選択である。
本稿では、BSPとASP.NETの両方の利点を利用するハイブリッド同期アプローチを設計する。
論文 参考訳(メタデータ) (2021-04-16T20:49:28Z) - Accelerating Neural Network Training with Distributed Asynchronous and
Selective Optimization (DASO) [0.0]
分散非同期および選択的最適化(DASO)手法を導入し、ネットワークトレーニングを加速します。
DASOは、ノードローカルおよびグローバルネットワークで構成される階層型および非同期通信スキームを使用する。
DASOは従来のネットワークや最先端ネットワークで最大34%のトレーニング時間を短縮できることを示す。
論文 参考訳(メタデータ) (2021-04-12T16:02:20Z) - Gradient Coding with Dynamic Clustering for Straggler-Tolerant
Distributed Learning [55.052517095437]
勾配降下(GD)は、複数の労働者にデータセットを分散することで学習タスクの並列化に広く用いられている。
分散同期gdにおけるイテレーション完了時間ごとの重要なパフォーマンスボトルネックは$straggling$ workersである。
コード化された分散技術は、最近ストラグラーを緩和し、労働者に冗長な計算を割り当てることでgdイテレーションを高速化するために導入された。
本稿では,従来のトラグリング動作に依存する可能性のあるコードの中から,冗長なデータを労働者に割り当てて選択する動的GC方式を提案する。
論文 参考訳(メタデータ) (2021-03-01T18:51:29Z) - DynaComm: Accelerating Distributed CNN Training between Edges and Clouds
through Dynamic Communication Scheduling [11.34309642431225]
本稿では,各送信手順を複数のセグメントに分割し,実行時に重複する最適な通信と計算を実現する新しいスケジューラDynaCommを提案する。
DynaComm は、モデル精度を保ちながら、競合する戦略と比較して、すべてのケースで最適なスケジューリングを実現できることを確認します。
論文 参考訳(メタデータ) (2021-01-20T05:09:41Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - A Low Complexity Decentralized Neural Net with Centralized Equivalence
using Layer-wise Learning [49.15799302636519]
我々は、分散処理ノード(労働者)で最近提案された大規模ニューラルネットワークをトレーニングするために、低複雑性分散学習アルゴリズムを設計する。
我々の設定では、トレーニングデータは作業者間で分散されるが、プライバシやセキュリティ上の懸念からトレーニングプロセスでは共有されない。
本研究では,データが一箇所で利用可能であるかのように,等価な学習性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-29T13:08:12Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。