論文の概要: The Disharmony between BN and ReLU Causes Gradient Explosion, but is
Offset by the Correlation between Activations
- arxiv url: http://arxiv.org/abs/2304.11692v3
- Date: Thu, 18 May 2023 03:10:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 19:34:54.684180
- Title: The Disharmony between BN and ReLU Causes Gradient Explosion, but is
Offset by the Correlation between Activations
- Title(参考訳): BNとReLUの非調和はグラディエント爆発を引き起こすが、活性化の相関によってオフセットされる
- Authors: Inyoung Paik, Jaesik Choi
- Abstract要約: バッチ正規化とReLUライクなアクティベーション機能を利用するディープニューラルネットワークは、時間勾配の爆発によって引き起こされる高勾配のため、トレーニングの初期段階で不安定な状態に陥る。
本研究では, 理論的にも実験的にも勾配爆発の発生と緩和を解析し, 運動の相関がトレーニング中も勾配爆発が持続するのを防ぐ重要な役割を担っていることを明らかにする。
- 参考スコア(独自算出の注目度): 27.828929309383774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks, which employ batch normalization and ReLU-like
activation functions, suffer from instability in the early stages of training
due to the high gradient induced by temporal gradient explosion. In this study,
we analyze the occurrence and mitigation of gradient explosion both
theoretically and empirically, and discover that the correlation between
activations plays a key role in preventing the gradient explosion from
persisting throughout the training. Finally, based on our observations, we
propose an improved adaptive learning rate algorithm to effectively control the
training instability.
- Abstract(参考訳): バッチ正規化とReLUライクなアクティベーション機能を利用するディープニューラルネットワークは、時間勾配の爆発によって引き起こされる高勾配のため、トレーニングの初期段階で不安定な状態に陥る。
本研究では,グラデーション爆発の発生と緩和を理論的および経験的に分析し,アクティベーション間の相関が,トレーニングを通してグラデーション爆発が持続するのを防ぐ上で重要な役割を担っていることを見出した。
最後に,我々の観測に基づいて,トレーニング不安定性を効果的に制御する適応学習率アルゴリズムを提案する。
関連論文リスト
- ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Butterfly Effects of SGD Noise: Error Amplification in Behavior Cloning
and Autoregression [70.78523583702209]
深層ニューラルネットワークを用いた行動クローニングの訓練不安定性について検討した。
トレーニング中のSGD更新の最小化は,長期的報奨の急激な振動をもたらすことが観察された。
論文 参考訳(メタデータ) (2023-10-17T17:39:40Z) - Homotopy Relaxation Training Algorithms for Infinite-Width Two-Layer ReLU Neural Networks [1.8434042562191815]
HRTA(Homotopy Relaxation Training Algorithm)と呼ばれる新しいトレーニング手法を提案する。
提案アルゴリズムは,線形活性化関数とReLU活性化関数をシームレスに結合するホモトピー活性化関数を構築することを含む。
我々は,ニューラル・タンジェント・カーネル(NTK)の文脈において,この手法の詳細な解析を行った。
論文 参考訳(メタデータ) (2023-09-26T20:18:09Z) - On a continuous time model of gradient descent dynamics and instability
in deep learning [12.20253214080485]
そこで本研究では,勾配降下力学を近似した連続時間流として主流れ(PF)を提案する。
PFは、ディープラーニングにおいて最近観測された安定性現象の端に光を放つ。
不安定性に対する新たな理解を用いて,トレーニング安定性とテストセット評価性能のトレードオフを制御できる学習率適応法を提案する。
論文 参考訳(メタデータ) (2023-02-03T19:03:10Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - A Loss Curvature Perspective on Training Instability in Deep Learning [28.70491071044542]
学習力学における損失の曲率の影響を理解するため,多くの分類課題における損失ヘッセンの進化について検討した。
条件付けの観点から,学習率のウォームアップはバッチ正規化と同じくらいのトレーニング安定性を向上できることを示した。
論文 参考訳(メタデータ) (2021-10-08T20:25:48Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。