論文の概要: OD-SGD: One-step Delay Stochastic Gradient Descent for Distributed
Training
- arxiv url: http://arxiv.org/abs/2005.06728v1
- Date: Thu, 14 May 2020 05:33:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 04:22:30.184376
- Title: OD-SGD: One-step Delay Stochastic Gradient Descent for Distributed
Training
- Title(参考訳): OD-SGD:分散トレーニングのための1ステップ遅延確率勾配
- Authors: Yemao Xu and Dezun Dong and Weixia Xu and Xiangke Liao
- Abstract要約: 本研究では,1段階遅延SGD(OD-SGD)と呼ばれる新しい技術を提案する。
提案アルゴリズムは,MNIST, CIFAR-10, ImageNetのデータセットを用いて評価する。
- 参考スコア(独自算出の注目度): 5.888925582071453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The training of modern deep learning neural network calls for large amounts
of computation, which is often provided by GPUs or other specific accelerators.
To scale out to achieve faster training speed, two update algorithms are mainly
applied in the distributed training process, i.e. the Synchronous SGD algorithm
(SSGD) and Asynchronous SGD algorithm (ASGD). SSGD obtains good convergence
point while the training speed is slowed down by the synchronous barrier. ASGD
has faster training speed but the convergence point is lower when compared to
SSGD. To sufficiently utilize the advantages of SSGD and ASGD, we propose a
novel technology named One-step Delay SGD (OD-SGD) to combine their strengths
in the training process. Therefore, we can achieve similar convergence point
and training speed as SSGD and ASGD separately. To the best of our knowledge,
we make the first attempt to combine the features of SSGD and ASGD to improve
distributed training performance. Each iteration of OD-SGD contains a global
update in the parameter server node and local updates in the worker nodes, the
local update is introduced to update and compensate the delayed local weights.
We evaluate our proposed algorithm on MNIST, CIFAR-10 and ImageNet datasets.
Experimental results show that OD-SGD can obtain similar or even slightly
better accuracy than SSGD, while its training speed is much faster, which even
exceeds the training speed of ASGD.
- Abstract(参考訳): 現代のディープラーニングニューラルネットワークのトレーニングは、gpuや他の特定のアクセラレーターによって提供される大量の計算を要求する。
高速なトレーニングを実現するために、2つの更新アルゴリズムが主に分散トレーニングプロセス、すなわちSynchronous SGDアルゴリズム(SSGD)とAsynchronous SGDアルゴリズム(ASGD)に適用される。
ssgdは同期バリアによりトレーニング速度が遅くなる間に良好な収束点を得る。
ASGDはトレーニング速度が速いが、SSGDと比較して収束点が低い。
SSGDとASGDの利点を十分に活用するために,1段階遅延SGD(One-step Delay SGD)と呼ばれる新しい技術を提案する。
したがって,SSGD や ASGD と同様の収束点とトレーニング速度を別々に達成することができる。
我々の知る限りでは、SSGDとASGDの機能を組み合わせて分散トレーニング性能を向上させるための最初の試みを行っている。
od-sgdの各イテレーションにはパラメータサーバノードのグローバル更新とワーカーノードのローカル更新が含まれており、ローカル更新は遅延したローカル重みを更新および補償するために導入される。
提案アルゴリズムは,MNIST, CIFAR-10, ImageNetデータセットを用いて評価する。
実験結果から, OD-SGDはSSGDと同等あるいはわずかに精度が向上し, トレーニング速度はASGDのトレーニング速度を超えていることがわかった。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Distributed Stochastic Gradient Descent with Staleness: A Stochastic Delay Differential Equation Based Framework [56.82432591933544]
分散勾配降下(SGD)は、計算リソースのスケーリング、トレーニング時間の短縮、マシンラーニングにおけるユーザのプライバシ保護の支援などにより、近年注目されている。
本稿では,遅延微分方程式(SDDE)と勾配到着の近似に基づく分散SGDの実行時間と安定化について述べる。
活性化作業員の増加は, 安定度による分散SGDを必ずしも加速させるものではないことが興味深い。
論文 参考訳(メタデータ) (2024-06-17T02:56:55Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。
近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。
本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文 参考訳(メタデータ) (2022-10-09T07:47:56Z) - DR-DSGD: A Distributionally Robust Decentralized Learning Algorithm over
Graphs [54.08445874064361]
本稿では,分散環境下での正規化された分散ロバストな学習問題を解くことを提案する。
Kullback-Liebler正規化関数をロバストなmin-max最適化問題に追加することにより、学習問題を修正されたロバストな問題に還元することができる。
提案アルゴリズムは, 最低分布検定精度を最大10%向上できることを示す。
論文 参考訳(メタデータ) (2022-08-29T18:01:42Z) - Loss Landscape Dependent Self-Adjusting Learning Rates in Decentralized
Stochastic Gradient Descent [37.52828820578212]
大規模ディープラーニング(DL)トレーニングには分散ディープラーニング(DDL)が不可欠である。
大規模なバッチ設定では、パラメータ更新回数の削減を補うために、学習率を上昇させなければならない。
近年,訓練速度を向上させるために分散並列SGD(DPSGD)が提案されている。
論文 参考訳(メタデータ) (2021-12-02T17:23:25Z) - Guided parallelized stochastic gradient descent for delay compensation [0.0]
勾配降下(sgd)アルゴリズムとそのバリエーションは、ニューラルネットワークモデルの最適化に効果的に使われている。
ビッグデータとディープラーニングの急速な成長により、SGDはエラー関数の逐次最適化の自然な振る舞いのために、もはや最も適した選択ではありません。
これにより、非同期SGD(ASGD)や同期SGD(SSGD)といった並列SGDアルゴリズムが開発され、ディープニューラルネットワークのトレーニングが行われている。
論文 参考訳(メタデータ) (2021-01-17T23:12:40Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z) - Scheduled Restart Momentum for Accelerated Stochastic Gradient Descent [32.40217829362088]
我々は、ディープニューラルネットワーク(DNN)をトレーニングするための新しいNAGスタイルのスキームを提案する。
SRSGDは、NAGの運動量の増加によってSGDの定数運動量を置き換えるが、スケジュールに従って運動量を0にリセットすることで繰り返しを安定化させる。
CIFARとImageNetの両方で、SRSGDはSGDベースラインと比較して、トレーニングのエポックを著しく少なくして、類似またはそれ以上のエラー率に達する。
論文 参考訳(メタデータ) (2020-02-24T23:16:19Z) - Overlap Local-SGD: An Algorithmic Approach to Hide Communication Delays
in Distributed SGD [32.03967072200476]
We propose a algorithmic approach named OverlapLocal-Local-Local-SGD (Local momentum variant)。
各ノードにアンカーモデルを追加することでこれを実現する。
複数のローカルアップデートの後、ローカルにトレーニングされたモデルは、他の人と通信するのではなく、アンカーモデルへと引き戻される。
論文 参考訳(メタデータ) (2020-02-21T20:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。