論文の概要: A Qualitative Study of the Dynamic Behavior for Adaptive Gradient
Algorithms
- arxiv url: http://arxiv.org/abs/2009.06125v2
- Date: Wed, 29 Sep 2021 23:55:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 11:32:49.236375
- Title: A Qualitative Study of the Dynamic Behavior for Adaptive Gradient
Algorithms
- Title(参考訳): 適応勾配アルゴリズムの動的挙動に関する定性的研究
- Authors: Chao Ma, Lei Wu, Weinan E
- Abstract要約: RMSpropとAdamのアルゴリズムは、注意深い数値実験と理論的説明を組み合わせることで研究されている。
トレーニング損失曲線では, 早期収束, 発振, 大スパイクの3種類の定性的特徴が観察された。
- 参考スコア(独自算出の注目度): 12.865834066050427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dynamic behavior of RMSprop and Adam algorithms is studied through a
combination of careful numerical experiments and theoretical explanations.
Three types of qualitative features are observed in the training loss curve:
fast initial convergence, oscillations, and large spikes in the late phase. The
sign gradient descent (signGD) flow, which is the limit of Adam when taking the
learning rate to 0 while keeping the momentum parameters fixed, is used to
explain the fast initial convergence. For the late phase of Adam, three
different types of qualitative patterns are observed depending on the choice of
the hyper-parameters: oscillations, spikes, and divergence. In particular, Adam
converges much smoother and even faster when the values of the two momentum
factors are close to each other. This observation is particularly important for
scientific computing tasks, for which the training process usually proceeds
into the high precision regime.
- Abstract(参考訳): RMSpropアルゴリズムとAdamアルゴリズムの動的挙動は、注意深い数値実験と理論的説明の組み合わせによって研究される。
トレーニング損失曲線では, 早期収束, 発振, 大スパイクの3種類の定性的特徴が観察された。
運動量パラメータを固定しながら学習速度を0にすると、Adamの限界である符号勾配降下(signGD)フローは、高速な初期収束を説明するために用いられる。
アダムの後期段階では、振動、スパイク、発散の3種類の定性的パターンが超パラメータの選択によって観察される。
特に、アダムは二つの運動量係数の値が互いに近いとき、より滑らかでより速く収束する。
この観察は科学計算のタスクにおいて特に重要であり、トレーニングプロセスは通常、高精度な状態に進む。
関連論文リスト
- Dynamic Decoupling of Placid Terminal Attractor-based Gradient Descent Algorithm [56.06235614890066]
勾配降下(GD)と勾配降下(SGD)は多くのアプリケーションドメインで広く使われている。
本稿では, 勾配流の異なる段階における終端アトラクタに基づくGDのダイナミクスを慎重に解析する。
論文 参考訳(メタデータ) (2024-09-10T14:15:56Z) - Conjugate-Gradient-like Based Adaptive Moment Estimation Optimization Algorithm for Deep Learning [2.695991050833627]
本稿では,ディープラーニングのためのCG-like-Adamという新しい最適化アルゴリズムを提案する。
具体的には、ジェネリック・アダムの第1次と第2次モーメント推定の両方を共役次数様に置き換える。
CIFAR10/100データセットに基づく提案アルゴリズムの優位性を示す数値実験を行った。
論文 参考訳(メタデータ) (2024-04-02T07:57:17Z) - Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality [54.20763128054692]
マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。
我々は,勾配流のダイナミックス中に,興味深い「タスク割り当て」現象が現れることを証明した。
論文 参考訳(メタデータ) (2024-02-29T18:43:52Z) - A Bootstrap Algorithm for Fast Supervised Learning [0.0]
ニューラルネットワーク(NN)のトレーニングは通常、勾配降下(および勾配降下(SGD))、ADADELTA、ADAM、制限メモリアルゴリズムなど、ある種の曲線追従手法に依存する。
これらのアルゴリズムの収束は通常、高いレベルの精度を達成するために大量の観測にアクセスできることに依存しており、特定の種類の関数で、これらのアルゴリズムはキャッチするデータポイントの複数のエポックを取ることができる。
ここでは、収束速度が劇的に向上する可能性を秘めている別の手法を探求する: カーブフォローではなく、隠れた層を「疎結合」することなどに依存する。
論文 参考訳(メタデータ) (2023-05-04T18:28:18Z) - Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。
運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文 参考訳(メタデータ) (2022-10-28T20:41:48Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Neurons learn slower than they think [0.0]
本研究は最適化プロセスにtextitdifferential機能を導入する。
分類問題において、モデルが決定境界に近づくほどテスト精度が向上するかどうかを測定する。
論文 参考訳(メタデータ) (2021-04-02T09:09:52Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。