論文の概要: Loss Landscape Dependent Self-Adjusting Learning Rates in Decentralized
Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2112.01433v1
- Date: Thu, 2 Dec 2021 17:23:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 20:30:12.133897
- Title: Loss Landscape Dependent Self-Adjusting Learning Rates in Decentralized
Stochastic Gradient Descent
- Title(参考訳): 分散確率勾配勾配におけるロスランドスケープ依存型自己調整学習率
- Authors: Wei Zhang, Mingrui Liu, Yu Feng, Xiaodong Cui, Brian Kingsbury, Yuhai
Tu
- Abstract要約: 大規模ディープラーニング(DL)トレーニングには分散ディープラーニング(DDL)が不可欠である。
大規模なバッチ設定では、パラメータ更新回数の削減を補うために、学習率を上昇させなければならない。
近年,訓練速度を向上させるために分散並列SGD(DPSGD)が提案されている。
- 参考スコア(独自算出の注目度): 37.52828820578212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributed Deep Learning (DDL) is essential for large-scale Deep Learning
(DL) training. Synchronous Stochastic Gradient Descent (SSGD) 1 is the de facto
DDL optimization method. Using a sufficiently large batch size is critical to
achieving DDL runtime speedup. In a large batch setting, the learning rate must
be increased to compensate for the reduced number of parameter updates.
However, a large learning rate may harm convergence in SSGD and training could
easily diverge. Recently, Decentralized Parallel SGD (DPSGD) has been proposed
to improve distributed training speed. In this paper, we find that DPSGD not
only has a system-wise run-time benefit but also a significant convergence
benefit over SSGD in the large batch setting. Based on a detailed analysis of
the DPSGD learning dynamics, we find that DPSGD introduces additional
landscape-dependent noise that automatically adjusts the effective learning
rate to improve convergence. In addition, we theoretically show that this noise
smoothes the loss landscape, hence allowing a larger learning rate. We conduct
extensive studies over 18 state-of-the-art DL models/tasks and demonstrate that
DPSGD often converges in cases where SSGD diverges for large learning rates in
the large batch setting. Our findings are consistent across two different
application domains: Computer Vision (CIFAR10 and ImageNet-1K) and Automatic
Speech Recognition (SWB300 and SWB2000), and two different types of neural
network models: Convolutional Neural Networks and Long Short-Term Memory
Recurrent Neural Networks.
- Abstract(参考訳): 大規模ディープラーニング(DL)トレーニングには分散ディープラーニング(DDL)が不可欠である。
同期確率勾配 Descent (SSGD) 1 は事実上の DDL 最適化法である。
DDLランタイムのスピードアップを達成するには、十分に大きなバッチサイズを使用することが重要です。
大規模なバッチ設定では、パラメータ更新数の削減を補うために、学習率を向上しなければならない。
しかし、大きな学習率はSSGDの収束を損なう可能性があり、訓練は容易に分岐する可能性がある。
近年,分散トレーニング速度を改善するために分散並列SGD(DPSGD)が提案されている。
本稿では,DPSGDがシステム的に実行時のメリットを持つだけでなく,大規模なバッチ設定においてSSGDよりも優れた収束性を持つことを示す。
dpsgd学習ダイナミクスの詳細な解析結果から,dpsgdでは,効率的な学習率を自動的に調整して収束性を向上させる,ランドスケープ依存ノイズが新たに導入されている。
さらに,理論上,このノイズが損失の景観を滑らかにし,学習率を増大させることを示した。
我々は18の最先端DLモデル/タスクについて広範な研究を行い、大規模なバッチ環境でSSGDが大きな学習率のために分岐する場合にDPSGDが収束することを示した。
我々の発見は、コンピュータビジョン(CIFAR10とImageNet-1K)と自動音声認識(SWB300とSWB2000)と、畳み込みニューラルネットワークとLong Short-Term Memory Recurrent Neural Networksという2つの異なるタイプのニューラルネットワークモデルで一致している。
関連論文リスト
- Fractional-order spike-timing-dependent gradient descent for multi-layer spiking neural networks [18.142378139047977]
本稿では,数次スパイクタイピング依存勾配勾配(FOSTDGD)学習モデルを提案する。
TheNISTとDVS128 Gestureデータセットでテストし、その精度を異なるネットワーク構造と分数順序で分析する。
論文 参考訳(メタデータ) (2024-10-20T05:31:34Z) - Analyzing and Improving the Training Dynamics of Diffusion Models [36.37845647984578]
一般的なADM拡散モデルアーキテクチャにおいて、不均一かつ非効率なトレーニングの原因をいくつか特定し、修正する。
この哲学の体系的な応用は、観測されたドリフトと不均衡を排除し、同じ計算複雑性でネットワークをかなり良くする。
論文 参考訳(メタデータ) (2023-12-05T11:55:47Z) - Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - DR-DSGD: A Distributionally Robust Decentralized Learning Algorithm over
Graphs [54.08445874064361]
本稿では,分散環境下での正規化された分散ロバストな学習問題を解くことを提案する。
Kullback-Liebler正規化関数をロバストなmin-max最適化問題に追加することにより、学習問題を修正されたロバストな問題に還元することができる。
提案アルゴリズムは, 最低分布検定精度を最大10%向上できることを示す。
論文 参考訳(メタデータ) (2022-08-29T18:01:42Z) - Distribution-sensitive Information Retention for Accurate Binary Neural
Network [49.971345958676196]
本稿では、前向きのアクティベーションと後向きの勾配の情報を保持するために、新しいDIR-Net(Distribution-sensitive Information Retention Network)を提案する。
我々のDIR-Netは、主流かつコンパクトなアーキテクチャの下で、SOTAバイナライゼーションアプローチよりも一貫して優れています。
我々は、実世界のリソース制限されたデバイス上でDIR-Netを行い、ストレージの11.1倍の節約と5.4倍のスピードアップを実現した。
論文 参考訳(メタデータ) (2021-09-25T10:59:39Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z) - OD-SGD: One-step Delay Stochastic Gradient Descent for Distributed
Training [5.888925582071453]
本研究では,1段階遅延SGD(OD-SGD)と呼ばれる新しい技術を提案する。
提案アルゴリズムは,MNIST, CIFAR-10, ImageNetのデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-05-14T05:33:36Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z) - Scheduled Restart Momentum for Accelerated Stochastic Gradient Descent [32.40217829362088]
我々は、ディープニューラルネットワーク(DNN)をトレーニングするための新しいNAGスタイルのスキームを提案する。
SRSGDは、NAGの運動量の増加によってSGDの定数運動量を置き換えるが、スケジュールに従って運動量を0にリセットすることで繰り返しを安定化させる。
CIFARとImageNetの両方で、SRSGDはSGDベースラインと比較して、トレーニングのエポックを著しく少なくして、類似またはそれ以上のエラー率に達する。
論文 参考訳(メタデータ) (2020-02-24T23:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。