論文の概要: Sync-Switch: Hybrid Parameter Synchronization for Distributed Deep
Learning
- arxiv url: http://arxiv.org/abs/2104.08364v2
- Date: Tue, 20 Apr 2021 00:25:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 12:27:31.442585
- Title: Sync-Switch: Hybrid Parameter Synchronization for Distributed Deep
Learning
- Title(参考訳): Sync-Switch:分散ディープラーニングのためのハイブリッドパラメータ同期
- Authors: Shijian Li, Oren Mangoubi, Lijie Xu, Tian Guo
- Abstract要約: Gradient Descent(SGD)は、分散クラスタでディープニューラルネットワークをトレーニングする事実上の方法となっている。
トレーニングスループットとモデルの精度を決定する上で重要な要因はパラメータ同期プロトコルの選択である。
本稿では、BSPとASP.NETの両方の利点を利用するハイブリッド同期アプローチを設計する。
- 参考スコア(独自算出の注目度): 10.196574441542646
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Stochastic Gradient Descent (SGD) has become the de facto way to train deep
neural networks in distributed clusters. A critical factor in determining the
training throughput and model accuracy is the choice of the parameter
synchronization protocol. For example, while Bulk Synchronous Parallel (BSP)
often achieves better converged accuracy, the corresponding training throughput
can be negatively impacted by stragglers. In contrast, Asynchronous Parallel
(ASP) can have higher throughput, but its convergence and accuracy can be
impacted by stale gradients. To improve the performance of synchronization
protocol, recent work often focuses on designing new protocols with a heavy
reliance on hard-to-tune hyper-parameters. In this paper, we design a hybrid
synchronization approach that exploits the benefits of both BSP and ASP, i.e.,
reducing training time while simultaneously maintaining the converged accuracy.
Based on extensive empirical profiling, we devise a collection of adaptive
policies that determine how and when to switch between synchronization
protocols. Our policies include both offline ones that target recurring jobs
and online ones for handling transient stragglers. We implement the proposed
policies in a prototype system, called Sync-Switch, on top of TensorFlow, and
evaluate the training performance with popular deep learning models and
datasets. Our experiments show that Sync-Switch achieves up to 5.13X throughput
speedup and similar converged accuracy when comparing to BSP. Further, we
observe that Sync-Switch achieves 3.8% higher converged accuracy with just
1.23X the training time compared to training with ASP. Moreover, Sync-Switch
can be used in settings when training with ASP leads to divergence errors.
Sync-Switch achieves all of these benefits with very low overhead, e.g., the
framework overhead can be as low as 1.7% of the total training time.
- Abstract(参考訳): Stochastic Gradient Descent (SGD)は、分散クラスタでディープニューラルネットワークをトレーニングする事実上の方法となっている。
トレーニングスループットとモデルの精度を決定する上で重要な要因はパラメータ同期プロトコルの選択である。
例えば、バルク同期並列(BSP)はしばしばより収束した精度を達成するが、対応するトレーニングスループットはストラグラーによって負の影響を受け得る。
対照的に、非同期並列(ASP)は高いスループットを持つことができるが、その収束と精度は安定した勾配の影響を受け得る。
同期プロトコルの性能を向上させるため、最近の研究は、ハードトゥーチューンハイパーパラメータに依存する新しいプロトコルの設計に重点を置いていることが多い。
本稿では、bspとaspの両方の利点、すなわち、収束精度を維持しながらトレーニング時間を短縮するハイブリッド同期方式を考案する。
広範な経験的プロファイリングに基づいて、同期プロトコル間の切り替え方法とタイミングを決定する適応ポリシーの集合を考案する。
当社のポリシーには、繰り返しジョブをターゲットとするオフライン版と、一時的なストラグラーを扱うオンライン版の両方が含まれています。
tensorflow上にsync-switchと呼ばれるプロトタイプシステムで提案するポリシを実装し,一般的なディープラーニングモデルとデータセットによるトレーニング性能の評価を行う。
実験の結果, Sync-Switchのスループットは最大5.13倍に向上し, BSPとの比較では類似の収束精度が得られた。
さらに、Sync-Switchは、ASP.NETでのトレーニングに比べてトレーニング時間のわずか1.23倍の収束精度を3.8%達成している。
さらに、aspでのトレーニングが分岐エラーにつながる場合、sync-switchは設定で使用できる。
Sync-Switchはこれらのすべての利点を非常に低いオーバーヘッドで実現している。例えば、フレームワークのオーバーヘッドはトレーニング時間の1.7%にも達する。
関連論文リスト
- Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - A Quadratic Synchronization Rule for Distributed Deep Learning [66.68264684667562]
本研究は、擬似同期規則(QSR)と呼ばれる$H$を決定するための理論基底法を提案する。
ResNet と ViT の実験により、QSR を用いた局所勾配法は、他の同期戦略よりもテスト精度を一貫して向上することが示された。
論文 参考訳(メタデータ) (2023-10-22T21:38:57Z) - Accelerating Distributed ML Training via Selective Synchronization [0.0]
textttSelSyncは、DNNトレーニングの実践的で低オーバーヘッドな方法であり、各ステップでコミュニケーションを発生または回避することを動的に選択する。
トレーニング時間を最大14$times$まで短縮しながら,BSPと同等あるいはより優れた精度に収束する。
論文 参考訳(メタデータ) (2023-07-16T05:28:59Z) - HFedMS: Heterogeneous Federated Learning with Memorable Data Semantics
in Industrial Metaverse [49.1501082763252]
本稿では,新しい産業メタバースに実用FLを取り入れたHFEDMSを提案する。
動的グルーピングとトレーニングモード変換によってデータの均一性を低下させる。
そして、圧縮された履歴データセマンティクスを融合することで、忘れられた知識を補う。
ストリームされた非I.d.FEMNISTデータセットに対して,368個のシミュレーションデバイスを用いて実験を行った。
論文 参考訳(メタデータ) (2022-11-07T04:33:24Z) - Efficient and Light-Weight Federated Learning via Asynchronous
Distributed Dropout [22.584080337157168]
非同期学習プロトコルは最近、特にフェデレートラーニング(FL)設定において注目を集めている。
分散環境でデバイスの不均一性を処理するためにドロップアウト正規化を利用する新しい非同期FLフレームワークである textttAsyncDrop を提案する。
全体として、textttAsyncDropは、最先端の非同期メソッドと比較してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-10-28T13:00:29Z) - Semi-Synchronous Personalized Federated Learning over Mobile Edge
Networks [88.50555581186799]
我々は,モバイルエッジネットワーク上での半同期パーソナライズフェデレーション(PerFedS$2$)と呼ばれる半同期PFLアルゴリズムを提案する。
我々は、グローバルラウンド当たりの参加者数とラウンド数の観点から、PerFedS2の収束率の上限を導出する。
PerFedS2はトレーニング時間を節約し、トレーニング損失の収束を保証する。
論文 参考訳(メタデータ) (2022-09-27T02:12:43Z) - GBA: A Tuning-free Approach to Switch between Synchronous and
Asynchronous Training for Recommendation Model [19.65557684234458]
パラメータサーバ(PS)上のグローバルバッチ勾配集約(GBA)を提案する。
トークン制御プロセスは、勾配を組み立て、厳密な安定度で勾配を減衰させる。
3つの産業規模のレコメンデーション・タスクの実験から、GBAはスイッチングのための効果的なチューニング不要なアプローチであることが示された。
論文 参考訳(メタデータ) (2022-05-23T05:22:42Z) - High-Throughput Synchronous Deep RL [132.43861715707905]
HTS-RL(High-Throughput Synchronous Deep Reinforcement Learning)の提案
私たちは同時に学習とロールアウトを行い、古いポリシーを避けるシステム設計を考案します。
我々は,アタリゲームとGoogle Research Football環境に対するアプローチを評価した。
論文 参考訳(メタデータ) (2020-12-17T18:59:01Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - PSO-PS: Parameter Synchronization with Particle Swarm Optimization for
Distributed Training of Deep Neural Networks [16.35607080388805]
我々はディープニューラルネットワーク(DNN)の分散トレーニングプロセスにParticle Swarm Optimizationを統合する新しいアルゴリズムを提案する。
提案アルゴリズムでは,粒子によって計算処理を符号化し,DNNの重みとトレーニング損失を粒子特性によってモデル化する。
各同期段階では、重みや勾配を平均化する代わりに、すべての労働者から集められたサブウェイトからPSOによって重みが更新される。
論文 参考訳(メタデータ) (2020-09-06T05:18:32Z) - ShadowSync: Performing Synchronization in the Background for Highly
Scalable Distributed Training [10.73956838502053]
現代のリコメンデーションシステムトレーニングに適した分散フレームワークであるShadowsyncを紹介します。
トレーニングプロセスの一部として同期が行われる以前の作業とは対照的に、Shadowsyncは同期をトレーニングから分離し、バックグラウンドで実行する。
論文 参考訳(メタデータ) (2020-03-07T00:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。