論文の概要: Flatter, faster: scaling momentum for optimal speedup of SGD
- arxiv url: http://arxiv.org/abs/2210.16400v1
- Date: Fri, 28 Oct 2022 20:41:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 19:48:09.857916
- Title: Flatter, faster: scaling momentum for optimal speedup of SGD
- Title(参考訳): SGDの最適高速化のためのフレッター高速スケーリングモーメント
- Authors: Aditya Cowsik, Tankut Can and Paolo Glorioso
- Abstract要約: ニューラルネットワークのトレーニングにおける勾配降下(SGD)と運動量との相互作用から生じる暗黙バイアスについて検討した。
学習速度で1-beta$の運動量ハイパーパラメータを最大2/3ドルのパワーにスケールすることは、一般化を犠牲にすることなく、トレーニングを最大で2/3のスピードで加速する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Commonly used optimization algorithms often show a trade-off between good
generalization and fast training times. For instance, stochastic gradient
descent (SGD) tends to have good generalization; however, adaptive gradient
methods have superior training times. Momentum can help accelerate training
with SGD, but so far there has been no principled way to select the momentum
hyperparameter. Here we study implicit bias arising from the interplay between
SGD with label noise and momentum in the training of overparametrized neural
networks. We find that scaling the momentum hyperparameter $1-\beta$ with the
learning rate to the power of $2/3$ maximally accelerates training, without
sacrificing generalization. To analytically derive this result we develop an
architecture-independent framework, where the main assumption is the existence
of a degenerate manifold of global minimizers, as is natural in
overparametrized models. Training dynamics display the emergence of two
characteristic timescales that are well-separated for generic values of the
hyperparameters. The maximum acceleration of training is reached when these two
timescales meet, which in turn determines the scaling limit we propose. We
perform experiments, including matrix sensing and ResNet on CIFAR10, which
provide evidence for the robustness of these results.
- Abstract(参考訳): 一般的な最適化アルゴリズムは、良い一般化と速い訓練時間の間のトレードオフを示すことが多い。
例えば、確率勾配降下(SGD)は良い一般化をする傾向があるが、適応勾配法はより優れた訓練時間を持つ。
モメンタムはSGDでのトレーニングを加速するのに役立つが、今のところ運動量ハイパーパラメータを選択するための原則的な方法はない。
本稿では,過パラメータニューラルネットワークの学習におけるラベル雑音と運動量との相互作用から生じる暗黙のバイアスについて検討する。
学習速度で1-\beta$の運動量ハイパーパラメータを最大2/3ドルのパワーにスケールすることは、一般化を犠牲にすることなく、トレーニングを最大加速する。
この結果を分析的に導出するため、我々はアーキテクチャ非依存の枠組みを開発し、大域的最小値の退化多様体の存在を主前提とした。
トレーニングダイナミクスは、ハイパーパラメータのジェネリック値によく分離された2つの特徴的なタイムスケールの出現を表示する。
これら2つのタイムスケールが一致すると、トレーニングの最大加速が達成され、その結果、我々が提案するスケーリング制限が決定される。
我々は,cifar10のマトリックスセンシングやresnetなどの実験を行い,その結果のロバスト性を示す証拠を提供する。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - Asymmetric Momentum: A Rethinking of Gradient Descent [4.1001738811512345]
LCAM(Los-Controlled Asymmetric Momentum)の最も単純なSGD拡張手法を提案する。
損失を平均化することにより、トレーニングプロセスを異なる損失フェーズに分割し、異なる運動量を使用する。
重みが方向特異性を持つことを実験的に検証し、データセットの特異性と相関する。
論文 参考訳(メタデータ) (2023-09-05T11:16:47Z) - The Underlying Correlated Dynamics in Neural Training [6.385006149689549]
ニューラルネットワークのトレーニングは、計算集約的なタスクである。
本稿では,パラメータのダイナミクスの相関に基づくモデルを提案する。
この表現は、基礎となるトレーニングダイナミクスの理解を深め、より良い加速技術を設計するための道を開くことができる。
論文 参考訳(メタデータ) (2022-12-18T08:34:11Z) - Scalable One-Pass Optimisation of High-Dimensional Weight-Update
Hyperparameters by Implicit Differentiation [0.0]
近似的過勾配型ハイパーパラメータオプティマイザを開発した。
トレーニングは1回のみであり、再スタートは行わない。
また、真の過次性への収束を動機づける議論も提供する。
論文 参考訳(メタデータ) (2021-10-20T09:57:57Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Stochastic Gradient Descent with Nonlinear Conjugate Gradient-Style
Adaptive Momentum [9.843647947055745]
ディープラーニングの実践では、運動量はよく校正された定数によって重み付けされる。
本稿では,DNNのトレーニング改善のための新しい強調モーメントを提案する。
論文 参考訳(メタデータ) (2020-12-03T18:59:43Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Adaptive Inertia: Disentangling the Effects of Adaptive Learning Rate
and Momentum [97.84312669132716]
我々は,アダム力学の適応学習率とモメンタムがサドルポイントエスケープおよびフラットミニマ選択に与える影響を解消する。
提案手法は,SGD法や従来の適応勾配法よりも大幅に一般化可能であることを示す。
論文 参考訳(メタデータ) (2020-06-29T05:21:02Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。