論文の概要: Catapult Dynamics and Phase Transitions in Quadratic Nets
- arxiv url: http://arxiv.org/abs/2301.07737v1
- Date: Wed, 18 Jan 2023 19:03:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-20 16:21:41.648875
- Title: Catapult Dynamics and Phase Transitions in Quadratic Nets
- Title(参考訳): 二次ネットにおけるカタパルトダイナミクスと相転移
- Authors: David Meltzer, Junyu Liu
- Abstract要約: カタパルト相は2層モデルと2層同種ニューラルネットを含む多種モデルのモデルに存在することを証明します。
一定範囲の学習率において,損失が大きいと重みノルムが低下することを示す。
また、この理論的に導出された範囲を超えて学習率を実証的に研究し、超臨界学習率で訓練されたReLUネットの活性化マップが、学習率を増加させるにつれて、より疎結合になることを示す。
- 参考スコア(独自算出の注目度): 10.32543637637479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks trained with gradient descent can undergo non-trivial phase
transitions as a function of the learning rate. In (Lewkowycz et al., 2020) it
was discovered that wide neural nets can exhibit a catapult phase for
super-critical learning rates, where the training loss grows exponentially
quickly at early times before rapidly decreasing to a small value. During this
phase the top eigenvalue of the neural tangent kernel (NTK) also undergoes
significant evolution. In this work, we will prove that the catapult phase
exists in a large class of models, including quadratic models and two-layer,
homogenous neural nets. To do this, we show that for a certain range of
learning rates the weight norm decreases whenever the loss becomes large. We
also empirically study learning rates beyond this theoretically derived range
and show that the activation map of ReLU nets trained with super-critical
learning rates becomes increasingly sparse as we increase the learning rate.
- Abstract(参考訳): 勾配降下で訓練されたニューラルネットワークは、学習率の関数として非自明な位相遷移を受けることができる。
Lewkowycz et al., 2020)では、広範囲のニューラルネットが超臨界学習率のカタパルト相を示し、トレーニング損失は早期に指数関数的に増加し、急速に小さな値に減少することがわかった。
この段階では、ニューラル・タンジェント・カーネル(NTK)の最高固有値も大きな進化を遂げる。
この研究において、カタパルト相が二次モデルと2層相同性ニューラルネットを含む大きな種類のモデルに存在することが証明される。
そこで本研究では,一定範囲の学習率において,損失が大きいと重み規範が減少することを示す。
また,この理論的に導かれた範囲を超えて学習率を実証的に研究し,超臨界学習率で訓練されたreluネットの活性化マップが学習率を増加させるにつれて希薄化していくことを示した。
関連論文リスト
- Understanding the Generalization Benefits of Late Learning Rate Decay [14.471831651042367]
ニューラルネットワークにおけるトレーニングとテスト損失の関係を示す。
本稿では、実際のニューラルネットワークで観測された損失景観を反映した非線形モデルを提案する。
学習率の高い拡張フェーズが、トレーニング損失の最小限の標準解に向けて、我々のモデルを導いてくれることを実証する。
論文 参考訳(メタデータ) (2024-01-21T21:11:09Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Early Stage Convergence and Global Convergence of Training Mildly
Parameterized Neural Networks [3.148524502470734]
トレーニングの初期段階において,損失はかなりの量減少し,この減少は急速に進行することを示す。
我々は、ニューロンの活性化パターンを顕微鏡で解析し、勾配のより強力な下界を導出するのに役立つ。
論文 参考訳(メタデータ) (2022-06-05T09:56:50Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z) - Plateau Phenomenon in Gradient Descent Training of ReLU networks:
Explanation, Quantification and Avoidance [0.0]
一般に、ニューラルネットワークは勾配型最適化法によって訓練される。
トレーニング開始時に損失関数は急速に低下するが,比較的少数のステップの後に著しく低下する。
本研究の目的は,高原現象の根本原因の同定と定量化である。
論文 参考訳(メタデータ) (2020-07-14T17:33:26Z) - The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T17:42:49Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。