論文の概要: The effect of Target Normalization and Momentum on Dying ReLU
- arxiv url: http://arxiv.org/abs/2005.06195v1
- Date: Wed, 13 May 2020 08:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 10:16:16.257838
- Title: The effect of Target Normalization and Momentum on Dying ReLU
- Title(参考訳): ターゲット正規化とモメンタムが染料ReLUに及ぼす影響
- Authors: Isac Arnekvist, J. Frederico Carvalho, Danica Kragic and Johannes A.
Stork
- Abstract要約: 単位分散目標が十分に動機付けられており、目標分散が0に近づくと、ReLUはより簡単に死滅することを示す。
また,死亡するReLUに対応するサドル点と領域を特定するために,単一ReLUモデルの勾配を解析した。
- 参考スコア(独自算出の注目度): 22.41606885255209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimizing parameters with momentum, normalizing data values, and using
rectified linear units (ReLUs) are popular choices in neural network (NN)
regression. Although ReLUs are popular, they can collapse to a constant
function and "die", effectively removing their contribution from the model.
While some mitigations are known, the underlying reasons of ReLUs dying during
optimization are currently poorly understood. In this paper, we consider the
effects of target normalization and momentum on dying ReLUs. We find
empirically that unit variance targets are well motivated and that ReLUs die
more easily, when target variance approaches zero. To further investigate this
matter, we analyze a discrete-time linear autonomous system, and show
theoretically how this relates to a model with a single ReLU and how common
properties can result in dying ReLU. We also analyze the gradients of a
single-ReLU model to identify saddle points and regions corresponding to dying
ReLU and how parameters evolve into these regions when momentum is used.
Finally, we show empirically that this problem persist, and is aggravated, for
deeper models including residual networks.
- Abstract(参考訳): 運動量によるパラメータの最適化、データ値の正規化、修正線形単位(ReLU)の使用は、ニューラルネットワーク(NN)回帰において一般的な選択である。
ReLUは人気があるが、一定の機能と"ディー"に崩壊し、モデルから効果的にコントリビューションを取り除くことができる。
いくつかの軽減策が知られているが、最適化中にReLUが死滅する根本的な理由は、現時点では理解されていない。
本稿では、目標正規化と運動量による死のReLUへの影響について考察する。
単位分散目標が十分に動機付けられており、ターゲット分散が0に近づくと、ReLUはより簡単に死滅する。
この問題をさらに調査するため,離散時間線形自律システムの解析を行い,単一のreluを持つモデルとの関連性と,共通性がreluの死亡にどのように影響するかを理論的に示す。
また, 単一ReLUモデルの勾配を解析して, 死亡するReLUに対応するサドル点と領域を同定し, 運動量を用いた場合のパラメータの進化について検討する。
最後に,残差ネットワークを含む深いモデルでは,この問題が持続し,悪化していることが実証的に示される。
関連論文リスト
- Rethinking Model Re-Basin and Linear Mode Connectivity [1.1510009152620668]
我々は再正規化を再スケーリングと再シフトに分解し、再スケーリングが再正規化に重要な役割を果たしていることを明らかにする。
統合モデルでは, 活性化崩壊とマグニチュード崩壊の問題に悩まされている。
本稿では,リベースとプルーニングを統一する新たな視点を提案し,軽量で効果的なポストプルーニング手法を導出する。
論文 参考訳(メタデータ) (2024-02-05T17:06:26Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Finite-Sample Analysis of Learning High-Dimensional Single ReLU Neuron [121.10338065441417]
我々は、GLM-tronと呼ばれるパーセプトロン型アルゴリズムを解析し、その次元自由リスク上限を高次元ReLU回帰のために提供する。
以上の結果から,GLM-tronは高次元ReLU回帰においてSGDよりも好ましい可能性が示唆された。
論文 参考訳(メタデータ) (2023-03-03T23:02:23Z) - Overparameterized ReLU Neural Networks Learn the Simplest Models: Neural
Isometry and Exact Recovery [33.74925020397343]
ディープラーニングは、学習パラメータが極端に多い場合でも、ニューラルネットワークが驚くほどよく一般化されていることを示している。
標準重崩壊正則化をもつ2層ReLUネットワークのトレーニングと一般化特性について考察する。
我々は,ラベルがうるさい場合でも,ReLUネットワークは単純でスパースなモデルを学ぶことを示す。
論文 参考訳(メタデータ) (2022-09-30T06:47:15Z) - Support Vectors and Gradient Dynamics for Implicit Bias in ReLU Networks [45.886537625951256]
単一ニューロンReLUネットワークのトレーニングにおけるパラメータ空間の勾配流れのダイナミクスについて検討する。
具体的には、ReLUネットワークにおいて、なぜ、どのようにしてReLUネットワークが一般化されるかにおいて重要な役割を果たすサポートベクトルの観点で、暗黙のバイアスを発見できる。
論文 参考訳(メタデータ) (2022-02-11T08:55:58Z) - ReLU Regression with Massart Noise [52.10842036932169]
本稿では、ReLU回帰の基本的問題として、Rectified Linear Units(ReLU)をデータに適合させることを目標としている。
我々は自然およびよく研究された半ランダムノイズモデルであるMassartノイズモデルにおけるReLU回帰に着目した。
このモデルにおいて,パラメータの正確な回復を実現する効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-09-10T02:13:22Z) - Regression Bugs Are In Your Model! Measuring, Reducing and Analyzing
Regressions In NLP Model Updates [68.09049111171862]
この研究は、NLPモデル更新における回帰エラーの定量化、低減、分析に重点を置いている。
回帰フリーモデル更新を制約付き最適化問題に定式化する。
モデルアンサンブルが回帰を減らす方法を実証的に分析します。
論文 参考訳(メタデータ) (2021-05-07T03:33:00Z) - ALReLU: A different approach on Leaky ReLU activation function to
improve Neural Networks Performance [0.0]
古典的ReLUアクティベーション関数(AF)はディープニューラルネットワーク(DNN)に広く応用されている
ReLUの一般的な勾配問題は、アカデミーや産業分野での応用に課題をもたらす。
LReLUの変種であるAbsolute Leaky ReLU (ALReLU) AFは、一般的な「ダイングReLU問題」を解決する代替手法として提案されている。
論文 参考訳(メタデータ) (2020-12-11T06:46:42Z) - Approximation Schemes for ReLU Regression [80.33702497406632]
我々はReLU回帰の根本的な問題を考察する。
目的は、未知の分布から引き出された2乗損失に対して、最も適したReLUを出力することである。
論文 参考訳(メタデータ) (2020-05-26T16:26:17Z) - Dynamic ReLU [74.973224160508]
本稿では、すべてのインプット要素上のハイパー関数によって生成されるパラメータの動的入力である動的ReLU(DY-ReLU)を提案する。
静的に比較すると、DY-ReLUは余分な計算コストは無視できるが、表現能力ははるかに高い。
単にDY-ReLUをMobileNetV2に使用することで、ImageNet分類のトップ-1の精度は72.0%から76.2%に向上し、追加のFLOPは5%に留まった。
論文 参考訳(メタデータ) (2020-03-22T23:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。