論文の概要: Spreads in Effective Learning Rates: The Perils of Batch Normalization
During Early Training
- arxiv url: http://arxiv.org/abs/2306.00700v1
- Date: Thu, 1 Jun 2023 14:09:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 15:45:22.047613
- Title: Spreads in Effective Learning Rates: The Perils of Batch Normalization
During Early Training
- Title(参考訳): 効果的な学習率の広がり--初期訓練におけるバッチ正規化の周辺
- Authors: Christian H.X. Ali Mehmeti-G\"opel, Michael Wand
- Abstract要約: 我々は、早期トレーニングダイナミクスを記述するODEベースのモデルを開発した。
我々のモデルは、勾配流において、実効LRは最終的に等しくなると予測する。
有効LRの大規模な拡散は、精度に関するトレーニング問題を引き起こすことが観察された。
- 参考スコア(独自算出の注目度): 9.195729979000406
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Excursions in gradient magnitude pose a persistent challenge when training
deep networks. In this paper, we study the early training phases of deep
normalized ReLU networks, accounting for the induced scale invariance by
examining effective learning rates (LRs). Starting with the well-known fact
that batch normalization (BN) leads to exponentially exploding gradients at
initialization, we develop an ODE-based model to describe early training
dynamics. Our model predicts that in the gradient flow, effective LRs will
eventually equalize, aligning with empirical findings on warm-up training.
Using large LRs is analogous to applying an explicit solver to a stiff
non-linear ODE, causing overshooting and vanishing gradients in lower layers
after the first step. Achieving overall balance demands careful tuning of LRs,
depth, and (optionally) momentum. Our model predicts the formation of spreads
in effective LRs, consistent with empirical measurements. Moreover, we observe
that large spreads in effective LRs result in training issues concerning
accuracy, indicating the importance of controlling these dynamics. To further
support a causal relationship, we implement a simple scheduling scheme
prescribing uniform effective LRs across layers and confirm accuracy benefits.
- Abstract(参考訳): 勾配グレードのエクスカレーションは、ディープネットワークのトレーニングにおいて永続的な課題となる。
本稿では,広範化ReLUネットワークの初期訓練フェーズについて検討し,実効学習率(LR)を検証して,誘導されたスケール不変性を考慮した。
バッチ正規化(BN)が初期化時に指数関数的に爆発的な勾配をもたらすという事実から始まり、初期訓練力学を記述するODEベースのモデルを開発する。
我々のモデルは、勾配流において、有効なLRは最終的に等しくなり、ウォームアップトレーニングにおける経験的な結果と一致すると予測する。
大きなlrsを使用することは、強固な非線形odeに明示的な解法を適用するのと類似しており、最初のステップの後に下層でのオーバーシュートと消滅の勾配を引き起こす。
全体的なバランスを達成するには、LR、深さ、そして(任意に)運動量の注意深く調整する必要がある。
本モデルでは,実効LRにおけるスプレッドの形成を実験的に予測する。
さらに,実効lrsの広がりが精度に関するトレーニング問題を引き起こし,これらのダイナミクスの制御の重要性が示唆された。
因果関係をさらに支援するために,レイヤ間の一様有効LRを規定する簡易なスケジューリング方式を実装し,精度の検証を行う。
関連論文リスト
- Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Large Learning Rates Improve Generalization: But How Large Are We
Talking About? [6.218417024312705]
最近の研究は、最高の一般化を達成するために、大きな学習率(LR)でニューラルネットワークのトレーニングを開始することを推奨している。
本研究は, 初回LR範囲を明らかにし, 後続のLRおよび重量平均化によるトレーニングに最適な結果を与えるものである。
論文 参考訳(メタデータ) (2023-11-19T11:36:35Z) - Unbiased and Efficient Self-Supervised Incremental Contrastive Learning [31.763904668737304]
本稿では,新たなIncremental InfoNCE(NCE-II)損失関数からなる自己教師型Incremental Contrastive Learning(ICL)フレームワークを提案する。
ICLは最大16.7倍のトレーニングスピードアップと16.8倍の高速収束を実現している。
論文 参考訳(メタデータ) (2023-01-28T06:11:31Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - A Loss Curvature Perspective on Training Instability in Deep Learning [28.70491071044542]
学習力学における損失の曲率の影響を理解するため,多くの分類課題における損失ヘッセンの進化について検討した。
条件付けの観点から,学習率のウォームアップはバッチ正規化と同じくらいのトレーニング安定性を向上できることを示した。
論文 参考訳(メタデータ) (2021-10-08T20:25:48Z) - FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文 参考訳(メタデータ) (2021-07-07T13:39:08Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z) - Towards Understanding Label Smoothing [36.54164997035046]
ラベルスムーズな正規化(LSR)は、トレーニングアルゴリズムによるディープニューラルネットワークにおいて大きな成功を収めている。
適切なLSRが分散を減少させることで収束を加速することを示す。
本稿では,TSLA(Two-Stage LAbel smoothing algorithm)を提案する。
論文 参考訳(メタデータ) (2020-06-20T20:36:17Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Accelerated Convergence for Counterfactual Learning to Rank [65.63997193915257]
IPS重み付き勾配を持つSGD手法の収束速度は、IPS重みによる大きなばらつきに悩まされることを示す。
本稿では,従来のIPS重み付け勾配降下法よりも優れた収束性を有する新しい学習アルゴリズムであるCounterSampleを提案する。
我々は、CounterSampleがより早く収束し、理論的な結果と経験的な結果とを補完することを証明する。
論文 参考訳(メタデータ) (2020-05-21T12:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。