論文の概要: Critical Parameters for Scalable Distributed Learning with Large Batches
and Asynchronous Updates
- arxiv url: http://arxiv.org/abs/2103.02351v1
- Date: Wed, 3 Mar 2021 12:08:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-04 15:06:08.387158
- Title: Critical Parameters for Scalable Distributed Learning with Large Batches
and Asynchronous Updates
- Title(参考訳): 大規模バッチと非同期更新によるスケーラブル分散学習のクリティカルパラメータ
- Authors: Sebastian U. Stich, Amirkeivan Mohtashami, Martin Jaggi
- Abstract要約: 飽和を伴う分散トレーニング(SGD)の効率は、バッチサイズと、実装における停滞に決定的に依存することが実験的に観察されている。
結果がタイトであることを示し、数値実験で重要な結果を示しています。
- 参考スコア(独自算出の注目度): 67.19481956584465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been experimentally observed that the efficiency of distributed
training with stochastic gradient (SGD) depends decisively on the batch size
and -- in asynchronous implementations -- on the gradient staleness.
Especially, it has been observed that the speedup saturates beyond a certain
batch size and/or when the delays grow too large. We identify a data-dependent
parameter that explains the speedup saturation in both these settings. Our
comprehensive theoretical analysis, for strongly convex, convex and non-convex
settings, unifies and generalized prior work directions that often focused on
only one of these two aspects. In particular, our approach allows us to derive
improved speedup results under frequently considered sparsity assumptions. Our
insights give rise to theoretically based guidelines on how the learning rates
can be adjusted in practice. We show that our results are tight and illustrate
key findings in numerical experiments.
- Abstract(参考訳): 確率勾配(SGD)による分散トレーニングの効率性は、バッチサイズと--非同期実装において--勾配定常性に決定的に依存することが実験的に観察されている。
特に、速度アップは特定のバッチサイズや遅延が大きくなると飽和してしまうことが観測されている。
これら2つの設定のスピードアップ飽和を説明するデータ依存パラメータを同定する。
強凸,凸,非凸といった包括的理論解析では,これら2つの側面のうちの1つにのみ焦点をあてる先行作業方向を統一し,一般化した。
特に,提案手法により,頻繁に考慮される疎性仮定の下での高速化結果の導出が可能となる。
私たちの洞察は、実際に学習率を調整できる理論に基づくガイドラインを生み出します。
結果がタイトであることを示し、数値実験で重要な結果を示しています。
関連論文リスト
- A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Asymmetric Momentum: A Rethinking of Gradient Descent [4.1001738811512345]
LCAM(Los-Controlled Asymmetric Momentum)の最も単純なSGD拡張手法を提案する。
損失を平均化することにより、トレーニングプロセスを異なる損失フェーズに分割し、異なる運動量を使用する。
重みが方向特異性を持つことを実験的に検証し、データセットの特異性と相関する。
論文 参考訳(メタデータ) (2023-09-05T11:16:47Z) - Efficient Graph Neural Network Inference at Large Scale [54.89457550773165]
グラフニューラルネットワーク(GNN)は、幅広いアプリケーションで優れた性能を示している。
既存のスケーラブルなGNNは、線形伝搬を利用して特徴を前処理し、トレーニングと推論の手順を高速化する。
本稿では,そのトポロジ情報に基づいて各ノードに対してパーソナライズされた伝搬順序を生成する適応的伝搬順序法を提案する。
論文 参考訳(メタデータ) (2022-11-01T14:38:18Z) - Implicit Bias of SGD for Diagonal Linear Networks: a Provable Benefit of
Stochasticity [24.428843425522107]
直交線形ネットワーク上の勾配降下の力学を,その連続時間,すなわち勾配流を用いて研究する。
トレーニング損失の収束速度がバイアス効果の大きさを制御することを示し,収束速度が遅くなるほどバイアスが良くなることを示した。
論文 参考訳(メタデータ) (2021-06-17T14:16:04Z) - Escaping Saddle Points Faster with Stochastic Momentum [9.485782209646445]
ディープネットワークでは、モーメントは収束時間を大幅に改善しているように見える。
我々は,SGDを高速に回避できるため,運動量が深度トレーニングを改善することを示す。
また、理想運動量パラメータの選択方法を示す。
論文 参考訳(メタデータ) (2021-06-05T23:34:02Z) - On the Generalization Benefit of Noise in Stochastic Gradient Descent [34.127525925676416]
ディープニューラルネットワークにおけるバッチ勾配勾配よりも、ミニバッチ勾配勾配がより一般化できるという主張は、長年にわたって議論されてきた。
小さいバッチサイズや中程度のバッチサイズは、テストセットにおいて非常に大きなバッチよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-06-26T16:18:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Accelerated Convergence for Counterfactual Learning to Rank [65.63997193915257]
IPS重み付き勾配を持つSGD手法の収束速度は、IPS重みによる大きなばらつきに悩まされることを示す。
本稿では,従来のIPS重み付け勾配降下法よりも優れた収束性を有する新しい学習アルゴリズムであるCounterSampleを提案する。
我々は、CounterSampleがより早く収束し、理論的な結果と経験的な結果とを補完することを証明する。
論文 参考訳(メタデータ) (2020-05-21T12:53:36Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。