論文の概要: The Disharmony Between BN and ReLU Causes Gradient Explosion, but is
Offset by the Correlation Between Activations
- arxiv url: http://arxiv.org/abs/2304.11692v1
- Date: Sun, 23 Apr 2023 15:57:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 17:06:24.580055
- Title: The Disharmony Between BN and ReLU Causes Gradient Explosion, but is
Offset by the Correlation Between Activations
- Title(参考訳): BNとReLUの非調和はグラディエント爆発を引き起こすが、活性化の相関によってオフセットされる
- Authors: Inyoung Paik, Jaesik Choi
- Abstract要約: バッチ正規化とReLUライクなアクティベーション関数に基づくディープニューラルネットワークは、時間勾配の爆発によって引き起こされる高勾配のため、トレーニングの初期段階で不安定を経験することができる。
本稿では,ReLUが期待以上に分散を減少させる方法と,バッチ正規化が回復過程の勾配を増幅する方法について説明する。
本稿では,2次最適化アルゴリズムにインスパイアされた適応学習率アルゴリズムを提案する。このアルゴリズムは,大規模バッチトレーニングにおいて既存の学習率スケーリング手法より優れ,小規模バッチトレーニングではWarmUpを置き換えることができる。
- 参考スコア(独自算出の注目度): 27.828929309383774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks based on batch normalization and ReLU-like activation
functions can experience instability during the early stages of training due to
the high gradient induced by temporal gradient explosion. We explain how ReLU
reduces variance more than expected, and how batch normalization amplifies the
gradient during recovery, which causes gradient explosion while forward
propagation remains stable. Additionally, we discuss how the dynamics of a deep
neural network change during training and how the correlation between inputs
can alleviate this problem. Lastly, we propose a better adaptive learning rate
algorithm inspired by second-order optimization algorithms, which outperforms
existing learning rate scaling methods in large batch training and can also
replace WarmUp in small batch training.
- Abstract(参考訳): バッチ正規化とReLUライクなアクティベーション関数に基づくディープニューラルネットワークは、時間勾配の爆発によって引き起こされる高勾配のため、トレーニングの初期段階で不安定を経験することができる。
本稿では,ReLUが期待以上に分散を減少させる方法と,バッチ正規化が回復過程の勾配を増幅する方法について説明する。
さらに,学習中のディープニューラルネットワークのダイナミクスがどう変化するか,入力間の相関がこの問題をいかに緩和するかについて議論する。
最後に,2次最適化アルゴリズムに触発された適応学習率アルゴリズムを提案する。大規模バッチトレーニングでは既存の学習率スケーリング手法を上回り,小規模バッチトレーニングではウォームアップを置き換えることができる。
関連論文リスト
- ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Butterfly Effects of SGD Noise: Error Amplification in Behavior Cloning
and Autoregression [70.78523583702209]
深層ニューラルネットワークを用いた行動クローニングの訓練不安定性について検討した。
トレーニング中のSGD更新の最小化は,長期的報奨の急激な振動をもたらすことが観察された。
論文 参考訳(メタデータ) (2023-10-17T17:39:40Z) - Homotopy Relaxation Training Algorithms for Infinite-Width Two-Layer ReLU Neural Networks [1.8434042562191815]
HRTA(Homotopy Relaxation Training Algorithm)と呼ばれる新しいトレーニング手法を提案する。
提案アルゴリズムは,線形活性化関数とReLU活性化関数をシームレスに結合するホモトピー活性化関数を構築することを含む。
我々は,ニューラル・タンジェント・カーネル(NTK)の文脈において,この手法の詳細な解析を行った。
論文 参考訳(メタデータ) (2023-09-26T20:18:09Z) - On a continuous time model of gradient descent dynamics and instability
in deep learning [12.20253214080485]
そこで本研究では,勾配降下力学を近似した連続時間流として主流れ(PF)を提案する。
PFは、ディープラーニングにおいて最近観測された安定性現象の端に光を放つ。
不安定性に対する新たな理解を用いて,トレーニング安定性とテストセット評価性能のトレードオフを制御できる学習率適応法を提案する。
論文 参考訳(メタデータ) (2023-02-03T19:03:10Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - A Loss Curvature Perspective on Training Instability in Deep Learning [28.70491071044542]
学習力学における損失の曲率の影響を理解するため,多くの分類課題における損失ヘッセンの進化について検討した。
条件付けの観点から,学習率のウォームアップはバッチ正規化と同じくらいのトレーニング安定性を向上できることを示した。
論文 参考訳(メタデータ) (2021-10-08T20:25:48Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。