論文の概要: Phase diagram of training dynamics in deep neural networks: effect of
learning rate, depth, and width
- arxiv url: http://arxiv.org/abs/2302.12250v1
- Date: Thu, 23 Feb 2023 18:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 13:54:01.836434
- Title: Phase diagram of training dynamics in deep neural networks: effect of
learning rate, depth, and width
- Title(参考訳): 深層ニューラルネットワークにおけるトレーニングダイナミクスの位相図:学習速度,深さ,幅の影響
- Authors: Dayal Singh Kalra and Maissam Barkeshli
- Abstract要約: 勾配降下法(SGD)を訓練したディープニューラルネットワーク(DNN)の最適化ダイナミクスを系統的に解析する。
損失の Hessian の最大固有値 $lambdaH_t$ を解析することにより、ダイナミクスは4つの異なる状態を示すことができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We systematically analyze optimization dynamics in deep neural networks
(DNNs) trained with stochastic gradient descent (SGD) over long time scales and
study the effect of learning rate, depth, and width of the neural network. By
analyzing the maximum eigenvalue $\lambda^H_t$ of the Hessian of the loss,
which is a measure of sharpness of the loss landscape, we find that the
dynamics can show four distinct regimes: (i) an early time transient regime,
(ii) an intermediate saturation regime, (iii) a progressive sharpening regime,
and finally (iv) a late time ``edge of stability" regime. The early and
intermediate regimes (i) and (ii) exhibit a rich phase diagram depending on
learning rate $\eta \equiv c/\lambda^H_0$, depth $d$, and width $w$. We
identify several critical values of $c$ which separate qualitatively distinct
phenomena in the early time dynamics of training loss and sharpness, and
extract their dependence on $d/w$. Our results have implications for how to
scale the learning rate with DNN depth and width in order to remain in the same
phase of learning.
- Abstract(参考訳): 確率勾配降下(SGD)を長期にわたって訓練したディープニューラルネットワーク(DNN)の最適化ダイナミクスを系統的に解析し,ニューラルネットワークの学習速度,深さ,幅の影響について検討した。
損失のヘシアンの最大固有値 $\lambda^H_t$ を解析することにより、損失ランドスケープの鋭さを測定することで、ダイナミクスは4つの異なる状態を示すことができる。
(i)早期の一時的な体制。
(二)中間飽和体制
(iii)進歩的な研削体制、そして最後に
(iv)後期の「安定の最先端」体制。
初期と中間の体制は
(i)および
(ii) 学習率$\eta \equiv c/\lambda^h_0$、深さ$d$、幅$w$に応じてリッチな位相図を示す。
トレーニング損失とシャープネスの速さで定性的に異なる現象を分離した$c$のいくつかの臨界値を特定し,$d/w$への依存性を抽出する。
この結果から,DNNの深度と幅で学習率を拡大し,学習の同じ段階に留まることが示唆された。
関連論文リスト
- Understanding Warmup-Stable-Decay Learning Rates: A River Valley Loss Landscape Perspective [66.80315289020487]
Warmup-Stable-Decay (WSD) スケジュールは、一定の学習率を使用して、所定の計算予算なしで無限に継続できるイテレーションのメインブランチを生成する。
プレトレーニング損失は,河底に川がある深い谷に類似した河谷景観を呈することを示す。
この理論にインスパイアされたWSD-Sは、従来のチェックポイントの崩壊フェーズを再利用し、メインブランチを1つだけ保持するWSDの変種である。
論文 参考訳(メタデータ) (2024-10-07T16:49:39Z) - Demystifying Lazy Training of Neural Networks from a Macroscopic Viewpoint [5.9954962391837885]
ニューラルネットワークの勾配勾配勾配ダイナミクスをマクロ的限界レンズを用いて検討する。
我々の研究は、勾配降下がディープニューラルネットワークを高速でトレーニング損失ゼロに駆動できることを明らかにした。
我々のアプローチは、Neural Tangent Kernel(NTK)パラダイムからインスピレーションを得ている。
論文 参考訳(メタデータ) (2024-04-07T08:07:02Z) - Universal Sharpness Dynamics in Neural Network Training: Fixed Point
Analysis, Edge of Stability, and Route to Chaos [6.579523168465526]
ニューラルネットワークの降下力学では、Hessian of the loss(シャープネス)のトップ固有値はトレーニングを通して様々な堅牢な現象を示す。
1つのトレーニング例に基づいて訓練された単純な2ドル層線形ネットワーク(UVモデル)が、実世界のシナリオで観察されるすべての本質的なシャープネス現象を示すことを示した。
論文 参考訳(メタデータ) (2023-11-03T17:59:40Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Understanding Edge-of-Stability Training Dynamics with a Minimalist
Example [20.714857891192345]
近年、ディープニューラルネットワークの降下は、EoS(Edge-of-stability')体制で行われていることが研究で明らかになった。
大規模局所領域におけるその力学について厳密な解析を行い、なぜ最終収束点が2/eta$にシャープネスを持つのかを説明する。
論文 参考訳(メタデータ) (2022-10-07T02:57:05Z) - Analyzing Sharpness along GD Trajectory: Progressive Sharpening and Edge
of Stability [8.492339290649031]
本稿では,最適化軌道に沿ったGDダイナミックスとシャープネスを解析することを目的とする。
出力層重みのノルムをシャープネスダイナミクスの興味深い指標として実証的に同定する。
本稿では,2層完全連結線形ニューラルネットワークにおけるEOSのシャープネス挙動の理論的証明について述べる。
論文 参考訳(メタデータ) (2022-07-26T06:37:58Z) - Differentially private training of neural networks with Langevin
dynamics forcalibrated predictive uncertainty [58.730520380312676]
その結果,DP-SGD(差分偏差勾配勾配勾配勾配勾配)は,低校正・過信深層学習モデルが得られることがわかった。
これは、医療診断など、安全クリティカルな応用にとって深刻な問題である。
論文 参考訳(メタデータ) (2021-07-09T08:14:45Z) - Vanishing Curvature and the Power of Adaptive Methods in Randomly
Initialized Deep Networks [30.467121747150816]
本稿では,ニューラルネットワークの深部で一般的に発生する,いわゆる消滅勾配現象を再考する。
ネットワーク幅が O(depth) 未満のスケールでは, 消失勾配を回避できないことを示す。
論文 参考訳(メタデータ) (2021-06-07T16:29:59Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。