Fugu-MT 論文翻訳(概要): Spreads in Effective Learning Rates: The Perils of Batch Normalization During Early Training

論文の概要: Spreads in Effective Learning Rates: The Perils of Batch Normalization During Early Training

arxiv url: http://arxiv.org/abs/2306.00700v1
Date: Thu, 1 Jun 2023 14:09:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-02 15:45:22.047613
Title: Spreads in Effective Learning Rates: The Perils of Batch Normalization During Early Training
Title（参考訳）: 効果的な学習率の広がり--初期訓練におけるバッチ正規化の周辺
Authors: Christian H.X. Ali Mehmeti-G\"opel, Michael Wand
Abstract要約: 我々は、早期トレーニングダイナミクスを記述するODEベースのモデルを開発した。我々のモデルは、勾配流において、実効LRは最終的に等しくなると予測する。有効LRの大規模な拡散は、精度に関するトレーニング問題を引き起こすことが観察された。
参考スコア（独自算出の注目度）: 9.195729979000406
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Excursions in gradient magnitude pose a persistent challenge when training deep networks. In this paper, we study the early training phases of deep normalized ReLU networks, accounting for the induced scale invariance by examining effective learning rates (LRs). Starting with the well-known fact that batch normalization (BN) leads to exponentially exploding gradients at initialization, we develop an ODE-based model to describe early training dynamics. Our model predicts that in the gradient flow, effective LRs will eventually equalize, aligning with empirical findings on warm-up training. Using large LRs is analogous to applying an explicit solver to a stiff non-linear ODE, causing overshooting and vanishing gradients in lower layers after the first step. Achieving overall balance demands careful tuning of LRs, depth, and (optionally) momentum. Our model predicts the formation of spreads in effective LRs, consistent with empirical measurements. Moreover, we observe that large spreads in effective LRs result in training issues concerning accuracy, indicating the importance of controlling these dynamics. To further support a causal relationship, we implement a simple scheduling scheme prescribing uniform effective LRs across layers and confirm accuracy benefits.
Abstract（参考訳）: 勾配グレードのエクスカレーションは、ディープネットワークのトレーニングにおいて永続的な課題となる。本稿では,広範化ReLUネットワークの初期訓練フェーズについて検討し,実効学習率(LR)を検証して,誘導されたスケール不変性を考慮した。バッチ正規化(BN)が初期化時に指数関数的に爆発的な勾配をもたらすという事実から始まり、初期訓練力学を記述するODEベースのモデルを開発する。我々のモデルは、勾配流において、有効なLRは最終的に等しくなり、ウォームアップトレーニングにおける経験的な結果と一致すると予測する。大きなlrsを使用することは、強固な非線形odeに明示的な解法を適用するのと類似しており、最初のステップの後に下層でのオーバーシュートと消滅の勾配を引き起こす。全体的なバランスを達成するには、LR、深さ、そして(任意に)運動量の注意深く調整する必要がある。本モデルでは,実効LRにおけるスプレッドの形成を実験的に予測する。さらに,実効lrsの広がりが精度に関するトレーニング問題を引き起こし,これらのダイナミクスの制御の重要性が示唆された。因果関係をさらに支援するために,レイヤ間の一様有効LRを規定する簡易なスケジューリング方式を実装し,精度の検証を行う。

関連論文リスト

Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning [57.3885832382455]
静的ネットワークの疎結合を単独で導入することで,最先端アーキテクチャの高密度化を超えて,さらなるスケーリング可能性を実現することができることを示す。解析の結果,高密度DRLネットワークをネーティブにスケールアップするのとは対照的に,疎ネットワークは高いパラメータ効率とネットワーク表現性を両立させることがわかった。
論文参考訳（メタデータ） (2025-06-20T17:54:24Z)
The Butterfly Effect: Neural Network Training Trajectories Are Highly Sensitive to Initial Conditions [51.68215326304272]
たとえ小さな摂動であっても、同じ訓練軌跡を確実に引き起こすことで、トレーニング時間とともに急速に減少する効果が発散することを示します。この結果から,ニューラルネットワークのトレーニング安定性,微調整,モデルマージ,モデルアンサンブルの多様性の実践的意味が示唆された。
論文参考訳（メタデータ） (2025-06-16T08:35:16Z)
Multiplicative Learning [0.04499833362998487]
本研究では,予測出力に対する観測値の比率に基づいて重みを乗算的に更新する新しい学習手法である期待反射(ER)を導入する。 ERを多層ネットワークに拡張し、画像分類タスクの実行の有効性を示す。
論文参考訳（メタデータ） (2025-03-13T08:14:00Z)
Guiding Two-Layer Neural Network Lipschitzness via Gradient Descent Learning Rate Constraints [7.373617024876726]
経験的リスク最小化における学習率への最終的な減衰の適用は、経験的リスクを妨げないことを示す。一定のステップサイズ勾配GDでトレーニングされたネットワークは、減衰LRでトレーニングされたネットワークと同様の学習特性を示す。これは、標準GDでトレーニングされたニューラルネットワークが、すでに非常に正規的な学習者である可能性を示唆している。
論文参考訳（メタデータ） (2025-02-06T05:43:04Z)
Are GATs Out of Balance? [73.2500577189791]
本稿では,ノード近傍のアグリゲーションをパラメータ化注意係数で重み付けするグラフ注意ネットワーク(GAT)について検討する。我々の主定理は、注意機構を持つ正の同次モデルの学習力学を研究するための足掛かりとなる。
論文参考訳（メタデータ） (2023-10-11T06:53:05Z)
Layer-wise Feedback Propagation [53.00944147633484]
本稿では、ニューラルネットワークのような予測器のための新しいトレーニング手法であるLFP(Layer-wise Feedback Propagation)を提案する。 LFPは、与えられたタスクの解決に対するそれぞれの貢献に基づいて、個々のコネクションに報酬を割り当てる。各種モデルやデータセットの勾配降下に匹敵する性能を達成できることの有効性を実証する。
論文参考訳（メタデータ） (2023-08-23T10:48:28Z)
Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。 NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文参考訳（メタデータ） (2023-07-27T06:59:46Z)
Implicit Stochastic Gradient Descent for Training Physics-informed Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。 PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文参考訳（メタデータ） (2023-03-03T08:17:47Z)
Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文参考訳（メタデータ） (2022-01-28T07:31:19Z)
Inductive Bias of Gradient Descent for Exponentially Weight Normalized Smooth Homogeneous Neural Nets [1.7259824817932292]
我々は,指数的あるいはクロスエントロピー損失のトレーニングにおいて,重み付き平滑な均質ニューラルネットの勾配降下の誘導バイアスを解析した。本稿では,EWNを用いた勾配流路が適応学習率の標準ネットワーク上での勾配流と等価であることを示す。
論文参考訳（メタデータ） (2020-10-24T14:34:56Z)
Accelerated Convergence for Counterfactual Learning to Rank [65.63997193915257]
IPS重み付き勾配を持つSGD手法の収束速度は、IPS重みによる大きなばらつきに悩まされることを示す。本稿では,従来のIPS重み付け勾配降下法よりも優れた収束性を有する新しい学習アルゴリズムであるCounterSampleを提案する。我々は、CounterSampleがより早く収束し、理論的な結果と経験的な結果とを補完することを証明する。
論文参考訳（メタデータ） (2020-05-21T12:53:36Z)
The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文参考訳（メタデータ） (2020-03-04T17:52:48Z)
Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文参考訳（メタデータ） (2020-02-20T15:43:02Z)
Learning the Ising Model with Generative Neural Networks [0.0]
ボルツマンマシン(RBM)と変分オートエンコーダ(VAE)の表現特性について検討する。その結果, RBM と畳み込み VAE は, 磁化, エネルギー, スピンスピン相関の温度依存性を捉えることが可能であることが示唆された。また, VAEの畳み込み層はスピン相関をモデル化するのに重要であるのに対し, RBMは畳み込みフィルタを使わずに類似あるいはさらに優れた性能を実現する。
論文参考訳（メタデータ） (2020-01-15T15:04:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。