Fugu-MT 論文翻訳(概要): Guided parallelized stochastic gradient descent for delay compensation

論文の概要: Guided parallelized stochastic gradient descent for delay compensation

arxiv url: http://arxiv.org/abs/2101.07259v1
Date: Sun, 17 Jan 2021 23:12:40 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-27 20:12:14.162604
Title: Guided parallelized stochastic gradient descent for delay compensation
Title（参考訳）: 遅延補償のための誘導並列化確率勾配降下法
Authors: Anuraganand Sharma
Abstract要約: 勾配降下(sgd)アルゴリズムとそのバリエーションは、ニューラルネットワークモデルの最適化に効果的に使われている。ビッグデータとディープラーニングの急速な成長により、SGDはエラー関数の逐次最適化の自然な振る舞いのために、もはや最も適した選択ではありません。これにより、非同期SGD(ASGD)や同期SGD(SSGD)といった並列SGDアルゴリズムが開発され、ディープニューラルネットワークのトレーニングが行われている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Stochastic gradient descent (SGD) algorithm and its variations have been effectively used to optimize neural network models. However, with the rapid growth of big data and deep learning, SGD is no longer the most suitable choice due to its natural behavior of sequential optimization of the error function. This has led to the development of parallel SGD algorithms, such as asynchronous SGD (ASGD) and synchronous SGD (SSGD) to train deep neural networks. However, it introduces a high variance due to the delay in parameter (weight) update. We address this delay in our proposed algorithm and try to minimize its impact. We employed guided SGD (gSGD) that encourages consistent examples to steer the convergence by compensating the unpredictable deviation caused by the delay. Its convergence rate is also similar to A/SSGD, however, some additional (parallel) processing is required to compensate for the delay. The experimental results demonstrate that our proposed approach has been able to mitigate the impact of delay for the quality of classification accuracy. The guided approach with SSGD clearly outperforms sequential SGD and even achieves the accuracy close to sequential SGD for some benchmark datasets.
Abstract（参考訳）: 確率勾配勾配(SGD)アルゴリズムとそのバリエーションは、ニューラルネットワークモデルの最適化に効果的に使用されている。しかし、ビッグデータの急速な成長とディープラーニングにより、SGDはエラー関数の逐次最適化の自然な振る舞いのため、もはや最も適した選択肢ではない。これにより、非同期SGD(ASGD)や同期SGD(SSGD)といった並列SGDアルゴリズムが開発され、ディープニューラルネットワークのトレーニングが行われている。しかし、パラメータ(重み付き)更新の遅延のため、大きなばらつきが生じる。提案アルゴリズムでは,この遅延に対処し,その影響を最小限に抑える。我々は,遅延による予測不可能な偏差を補正することにより,一貫した例に収束を促すガイド付きSGD(gSGD)を採用した。収束速度もA/SSGDと似ているが、遅延を補うにはいくつかの追加(並列)処理が必要である。実験の結果,提案手法は,分類精度の向上に要する遅延の影響を軽減することができることがわかった。 SSGDによるガイド付きアプローチは、シーケンシャルSGDよりも明らかに優れており、ベンチマークデータセットのシーケンシャルSGDに近い精度も達成している。

関連論文リスト

Distributed Stochastic Gradient Descent with Staleness: A Stochastic Delay Differential Equation Based Framework [56.82432591933544]
分散勾配降下(SGD)は、計算リソースのスケーリング、トレーニング時間の短縮、マシンラーニングにおけるユーザのプライバシ保護の支援などにより、近年注目されている。本稿では,遅延微分方程式(SDDE)と勾配到着の近似に基づく分散SGDの実行時間と安定化について述べる。活性化作業員の増加は, 安定度による分散SGDを必ずしも加速させるものではないことが興味深い。
論文参考訳（メタデータ） (2024-06-17T02:56:55Z)
Towards Understanding the Generalizability of Delayed Stochastic Gradient Descent [63.43247232708004]
非同期で実行される勾配降下は、大規模機械学習モデルのトレーニングにおいて重要な役割を果たす。既存の一般化誤差境界は悲観的であり、非同期遅延と一般化の相関を明らかにすることはできない。我々の理論的結果は、非同期遅延は遅延SGDアルゴリズムの一般化誤差を低減することを示唆している。
論文参考訳（メタデータ） (2023-08-18T10:00:27Z)
DR-DSGD: A Distributionally Robust Decentralized Learning Algorithm over Graphs [54.08445874064361]
本稿では,分散環境下での正規化された分散ロバストな学習問題を解くことを提案する。 Kullback-Liebler正規化関数をロバストなmin-max最適化問題に追加することにより、学習問題を修正されたロバストな問題に還元することができる。提案アルゴリズムは, 最低分布検定精度を最大10%向上できることを示す。
論文参考訳（メタデータ） (2022-08-29T18:01:42Z)
Asynchronous SGD Beats Minibatch SGD Under Arbitrary Delays [8.46491234455848]
ステップの数だけでなく、ステップの遅延にもよらず、同じ非同期勾配の保証がずっと良いことを証明しています。そこで本研究では,「仮想ステップ」と「遅延反復」に基づいて,両凸非適応勾配に対する最先端保証を導出する手法を提案する。
論文参考訳（メタデータ） (2022-06-15T16:28:37Z)
Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。 DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文参考訳（メタデータ） (2021-07-06T21:59:49Z)
Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。 AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2020-10-21T14:49:00Z)
Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文参考訳（メタデータ） (2020-04-11T03:50:59Z)
Slow and Stale Gradients Can Win the Race [39.750046808758526]
同期的に実行される分散Gradient Descent(SGD)は、最も遅いワーカー(ストラグラー)を待つとき、実行時の遅延に悩まされる。非同期手法はストラグラーを緩和するが、収束誤差に悪影響を及ぼす勾配の安定化を引き起こす。本稿では,訓練されたモデルにおけるエラーと実際のトレーニング実行時のトレードオフを解析し,非同期手法によって提供される高速化の理論的特徴について述べる。
論文参考訳（メタデータ） (2020-03-23T23:27:50Z)
Scheduled Restart Momentum for Accelerated Stochastic Gradient Descent [32.40217829362088]
我々は、ディープニューラルネットワーク(DNN)をトレーニングするための新しいNAGスタイルのスキームを提案する。 SRSGDは、NAGの運動量の増加によってSGDの定数運動量を置き換えるが、スケジュールに従って運動量を0にリセットすることで繰り返しを安定化させる。 CIFARとImageNetの両方で、SRSGDはSGDベースラインと比較して、トレーニングのエポックを著しく少なくして、類似またはそれ以上のエラー率に達する。
論文参考訳（メタデータ） (2020-02-24T23:16:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。