論文の概要: HPSGD: Hierarchical Parallel SGD With Stale Gradients Featuring
- arxiv url: http://arxiv.org/abs/2009.02701v2
- Date: Sat, 28 Nov 2020 15:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 08:05:02.464112
- Title: HPSGD: Hierarchical Parallel SGD With Stale Gradients Featuring
- Title(参考訳): HPSGD: 階層型並列SGDとステアグラディエントを兼ね備えたSGD
- Authors: Yuhao Zhou, Qing Ye, Hailun Zhang, Jiancheng Lv
- Abstract要約: ディープニューラルネットワーク(DNN)の分散トレーニングプロセスを促進するために,新しい階層型並列SGD(HPSGD)戦略を提案する。
提案手法が分散DNNトレーニングを大幅に促進し, 定常勾配の乱れを低減し, 固定壁面の精度を向上することを示す実験を行った。
- 参考スコア(独自算出の注目度): 18.8426865970643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While distributed training significantly speeds up the training process of
the deep neural network (DNN), the utilization of the cluster is relatively low
due to the time-consuming data synchronizing between workers. To alleviate this
problem, a novel Hierarchical Parallel SGD (HPSGD) strategy is proposed based
on the observation that the data synchronization phase can be paralleled with
the local training phase (i.e., Feed-forward and back-propagation).
Furthermore, an improved model updating method is unitized to remedy the
introduced stale gradients problem, which commits updates to the replica (i.e.,
a temporary model that has the same parameters as the global model) and then
merges the average changes to the global model. Extensive experiments are
conducted to demonstrate that the proposed HPSGD approach substantially boosts
the distributed DNN training, reduces the disturbance of the stale gradients
and achieves better accuracy in given fixed wall-time.
- Abstract(参考訳): 分散トレーニングはディープニューラルネットワーク(dnn)のトレーニングプロセスを著しく高速化するが、作業者間でのデータの同期が時間のかかるため、クラスタの利用率は比較的低い。
この問題を解決するために,データ同期フェーズを局所トレーニングフェーズ(フィードフォワードおよびバックプロパゲーション)と並列化できるという観測に基づいて,新しい階層型並列sgd(hpsgd)戦略を提案する。
さらに、改良されたモデル更新手法を統一して、導入したスタル勾配問題を修復し、レプリカ(すなわち、グローバルモデルと同じパラメータを持つ一時的なモデル)をコミットし、グローバルモデルへの平均的な変更をマージする。
提案手法が分散DNNトレーニングを大幅に促進し, 定常勾配の乱れを低減し, 固定壁面の精度を向上することを示すため, 大規模実験を行った。
関連論文リスト
- Asynchronous Stochastic Gradient Descent with Decoupled Backpropagation and Layer-Wise Updates [1.9241821314180372]
バックプロパゲーションの大きな欠点の1つは、アルゴリズムの前方フェーズと後方フェーズの間のインターロックである。
本稿では,複数のスレッドから非同期に更新することで,モデルのレイヤ間でSGD更新を並列化する手法を提案する。
このアプローチは、Hongwild!よりも最大2.97倍高速で複数のデバイスでスケールしながら、最先端の結果に近い結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-08T12:32:36Z) - Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。
一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。
本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:14:36Z) - FedDIP: Federated Learning with Extreme Dynamic Pruning and Incremental
Regularization [5.182014186927254]
大規模Deep Neural Networks(DNN)の分散トレーニングと推論にFL(Federated Learning)が成功している。
我々は、(i)動的プルーニングとエラーフィードバックを組み合わせて冗長な情報交換を排除する新しいFLフレームワーク(Coined FedDIP)にコントリビュートする。
我々は、FedDIPの収束解析と総合的な性能について報告し、最先端手法との比較評価を行う。
論文 参考訳(メタデータ) (2023-09-13T08:51:19Z) - OSP: Boosting Distributed Model Training with 2-stage Synchronization [24.702780532364056]
オーバーラップ並列化(OSP)と呼ばれる新しいモデル同期手法を提案する。
OSPは2段階同期方式で効率的な通信を実現し、Local-Gradientベースを使用する。
古いパラメータによる精度損失を避けるための修正(LGP)。
その結果、OSPは、一般的な同期モデルと比較して、精度を損なうことなく、最大50%のスループット向上を達成できることがわかった。
論文 参考訳(メタデータ) (2023-06-29T13:24:12Z) - FedAgg: Adaptive Federated Learning with Aggregated Gradients [1.5653612447564105]
我々はFedAggと呼ばれる適応型FEDerated Learningアルゴリズムを提案し、局所モデルパラメータと平均モデルパラメータのばらつきを緩和し、高速モデル収束率を得る。
IIDおよび非IIDデータセット下でのモデル性能の向上と収束速度の促進を目的として,本手法が既存のFL戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-28T08:07:28Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Magnitude Matters: Fixing SIGNSGD Through Magnitude-Aware Sparsification
in the Presence of Data Heterogeneity [60.791736094073]
通信オーバーヘッドは、ディープニューラルネットワークの分散トレーニングにおいて、大きなボトルネックのひとつになっています。
本稿では,SIGNSGDの非収束問題に対処する等級化方式を提案する。
提案手法は,Fashion-MNIST, CIFAR-10, CIFAR-100データセットを用いて検証した。
論文 参考訳(メタデータ) (2023-02-19T17:42:35Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。