Fugu-MT 論文翻訳(概要): Phase diagram of early training dynamics in deep neural networks: effect of the learning rate, depth, and width

論文の概要: Phase diagram of early training dynamics in deep neural networks: effect of the learning rate, depth, and width

arxiv url: http://arxiv.org/abs/2302.12250v2
Date: Tue, 24 Oct 2023 17:59:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-26 01:34:38.558544
Title: Phase diagram of early training dynamics in deep neural networks: effect of the learning rate, depth, and width
Title（参考訳）: 深層ニューラルネットワークにおける早期トレーニングダイナミクスの位相図:学習速度,深さ,幅の影響
Authors: Dayal Singh Kalra and Maissam Barkeshli
Abstract要約: 勾配降下法(SGD)を訓練したディープニューラルネットワーク(DNN)の最適化ダイナミクスを系統的に解析する。力学は、(i)早期過渡的体制、(ii)中期飽和体制、(iii)進歩的鋭化体制、(iv)後期安定体制の4つの異なる状態を示すことができる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We systematically analyze optimization dynamics in deep neural networks (DNNs) trained with stochastic gradient descent (SGD) and study the effect of learning rate $\eta$, depth $d$, and width $w$ of the neural network. By analyzing the maximum eigenvalue $\lambda^H_t$ of the Hessian of the loss, which is a measure of sharpness of the loss landscape, we find that the dynamics can show four distinct regimes: (i) an early time transient regime, (ii) an intermediate saturation regime, (iii) a progressive sharpening regime, and (iv) a late time ``edge of stability" regime. The early and intermediate regimes (i) and (ii) exhibit a rich phase diagram depending on $\eta \equiv c / \lambda_0^H $, $d$, and $w$. We identify several critical values of $c$, which separate qualitatively distinct phenomena in the early time dynamics of training loss and sharpness. Notably, we discover the opening up of a ``sharpness reduction" phase, where sharpness decreases at early times, as $d$ and $1/w$ are increased.
Abstract（参考訳）: 確率勾配降下法(SGD)を訓練したディープニューラルネットワーク(DNN)の最適化ダイナミクスを系統的に解析し,学習率$\eta$,deep $d$,Whid $w$のニューラルネットワークの効果について検討した。損失のヘシアンの最大固有値 $\lambda^H_t$ を解析することにより、損失ランドスケープの鋭さを測定することで、ダイナミクスは4つの異なる状態を示すことができる。 (i)早期の一時的な体制。 (二)中間飽和体制 (iii)進歩的な研削体制、 (iv)後期の「安定の最先端」体制。初期と中間の体制は (i)および (ii) $\eta \equiv c / \lambda_0^H $, $d$, $w$ に依存する豊富な位相図を示す。トレーニング損失とシャープネスの初期ダイナミクスにおいて定性的に異なる現象を分離するいくつかの臨界値である$c$を同定した。特に、$d$ と $1/w$ が増加するにつれて、鋭さが早い段階で減少する `sharpness reduction" フェーズの開始を見出した。

関連論文リスト

The Butterfly Effect: Neural Network Training Trajectories Are Highly Sensitive to Initial Conditions [51.68215326304272]
たとえ小さな摂動であっても、同じ訓練軌跡を確実に引き起こすことで、トレーニング時間とともに急速に減少する効果が発散することを示します。この結果から,ニューラルネットワークのトレーニング安定性,微調整,モデルマージ,モデルアンサンブルの多様性の実践的意味が示唆された。
論文参考訳（メタデータ） (2025-06-16T08:35:16Z)
Learning Dynamics of Deep Linear Networks Beyond the Edge of Stability [14.88048518927001]
一定の学習率で勾配勾配勾配を学習した深部ニューラルネットワークは「安定性の最先端」の状態で動作している EOS以外の損失振動は周期的なカオスへの経路を辿ることを示す。本結果は,ディープネットワークにおける2つの重要な現象の説明に寄与する。
論文参考訳（メタデータ） (2025-02-27T21:32:42Z)
Understanding Warmup-Stable-Decay Learning Rates: A River Valley Loss Landscape Perspective [66.80315289020487]
Warmup-Stable-Decay (WSD) スケジュールは、一定の学習率を使用して、所定の計算予算なしで無限に継続できるイテレーションのメインブランチを生成する。プレトレーニング損失は,河底に川がある深い谷に類似した河谷景観を呈することを示す。この理論にインスパイアされたWSD-Sは、従来のチェックポイントの崩壊フェーズを再利用し、メインブランチを1つだけ保持するWSDの変種である。
論文参考訳（メタデータ） (2024-10-07T16:49:39Z)
Demystifying Lazy Training of Neural Networks from a Macroscopic Viewpoint [5.9954962391837885]
ニューラルネットワークの勾配勾配勾配ダイナミクスをマクロ的限界レンズを用いて検討する。我々の研究は、勾配降下がディープニューラルネットワークを高速でトレーニング損失ゼロに駆動できることを明らかにした。我々のアプローチは、Neural Tangent Kernel(NTK)パラダイムからインスピレーションを得ている。
論文参考訳（メタデータ） (2024-04-07T08:07:02Z)
Universal Sharpness Dynamics in Neural Network Training: Fixed Point Analysis, Edge of Stability, and Route to Chaos [6.579523168465526]
ニューラルネットワークの降下力学では、Hessian of the loss(シャープネス)のトップ固有値はトレーニングを通して様々な堅牢な現象を示す。 1つのトレーニング例に基づいて訓練された単純な2ドル層線形ネットワーク(UVモデル)が、実世界のシナリオで観察されるすべての本質的なシャープネス現象を示すことを示した。
論文参考訳（メタデータ） (2023-11-03T17:59:40Z)
Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文参考訳（メタデータ） (2022-10-13T15:09:54Z)
Understanding Edge-of-Stability Training Dynamics with a Minimalist Example [20.714857891192345]
近年、ディープニューラルネットワークの降下は、EoS(Edge-of-stability')体制で行われていることが研究で明らかになった。大規模局所領域におけるその力学について厳密な解析を行い、なぜ最終収束点が2/eta$にシャープネスを持つのかを説明する。
論文参考訳（メタデータ） (2022-10-07T02:57:05Z)
Analyzing Sharpness along GD Trajectory: Progressive Sharpening and Edge of Stability [8.492339290649031]
本稿では,最適化軌道に沿ったGDダイナミックスとシャープネスを解析することを目的とする。出力層重みのノルムをシャープネスダイナミクスの興味深い指標として実証的に同定する。本稿では,2層完全連結線形ニューラルネットワークにおけるEOSのシャープネス挙動の理論的証明について述べる。
論文参考訳（メタデータ） (2022-07-26T06:37:58Z)
Differentially private training of neural networks with Langevin dynamics forcalibrated predictive uncertainty [58.730520380312676]
その結果,DP-SGD(差分偏差勾配勾配勾配勾配勾配)は,低校正・過信深層学習モデルが得られることがわかった。これは、医療診断など、安全クリティカルな応用にとって深刻な問題である。
論文参考訳（メタデータ） (2021-07-09T08:14:45Z)
Vanishing Curvature and the Power of Adaptive Methods in Randomly Initialized Deep Networks [30.467121747150816]
本稿では,ニューラルネットワークの深部で一般的に発生する,いわゆる消滅勾配現象を再考する。ネットワーク幅が O(depth) 未満のスケールでは, 消失勾配を回避できないことを示す。
論文参考訳（メタデータ） (2021-06-07T16:29:59Z)
Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。 Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文参考訳（メタデータ） (2020-04-20T18:12:56Z)
The Break-Even Point on Optimization Trajectories of Deep Neural Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文参考訳（メタデータ） (2020-02-21T22:55:51Z)
Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文参考訳（メタデータ） (2020-02-20T15:43:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。