論文の概要: Plateau Phenomenon in Gradient Descent Training of ReLU networks:
Explanation, Quantification and Avoidance
- arxiv url: http://arxiv.org/abs/2007.07213v1
- Date: Tue, 14 Jul 2020 17:33:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 14:26:30.560512
- Title: Plateau Phenomenon in Gradient Descent Training of ReLU networks:
Explanation, Quantification and Avoidance
- Title(参考訳): ReLUネットワークのグラディエントDescent Trainingにおけるプラトー現象:説明,定量化,回避
- Authors: Mark Ainsworth and Yeonjong Shin
- Abstract要約: 一般に、ニューラルネットワークは勾配型最適化法によって訓練される。
トレーニング開始時に損失関数は急速に低下するが,比較的少数のステップの後に著しく低下する。
本研究の目的は,高原現象の根本原因の同定と定量化である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The ability of neural networks to provide `best in class' approximation
across a wide range of applications is well-documented. Nevertheless, the
powerful expressivity of neural networks comes to naught if one is unable to
effectively train (choose) the parameters defining the network. In general,
neural networks are trained by gradient descent type optimization methods, or a
stochastic variant thereof. In practice, such methods result in the loss
function decreases rapidly at the beginning of training but then, after a
relatively small number of steps, significantly slow down. The loss may even
appear to stagnate over the period of a large number of epochs, only to then
suddenly start to decrease fast again for no apparent reason. This so-called
plateau phenomenon manifests itself in many learning tasks.
The present work aims to identify and quantify the root causes of plateau
phenomenon. No assumptions are made on the number of neurons relative to the
number of training data, and our results hold for both the lazy and adaptive
regimes. The main findings are: plateaux correspond to periods during which
activation patterns remain constant, where activation pattern refers to the
number of data points that activate a given neuron; quantification of
convergence of the gradient flow dynamics; and, characterization of stationary
points in terms solutions of local least squares regression lines over subsets
of the training data. Based on these conclusions, we propose a new iterative
training method, the Active Neuron Least Squares (ANLS), characterised by the
explicit adjustment of the activation pattern at each step, which is designed
to enable a quick exit from a plateau. Illustrative numerical examples are
included throughout.
- Abstract(参考訳): ニューラルネットワークが幅広いアプリケーションに‘クラス最高の’近似を提供する能力は、十分に文書化されている。
それでも、ニューラルネットワークの強力な表現性は、ネットワークを定義するパラメータを効果的にトレーニング(チョース)できない場合に問題となる。
一般に、ニューラルネットワークは勾配降下型最適化法またはその確率的変種によって訓練される。
実際には、そのような方法ではトレーニング開始時に損失関数が急速に低下するが、比較的少数のステップの後、大幅に低下する。
この損失は、多くのエポックの期間に停滞しているように見えるが、その間に突然減少し始めるが、その原因は明らかでない。
このいわゆるプラトー現象は多くの学習課題に現れている。
本研究の目的は,高原現象の根本原因の同定と定量化である。
トレーニングデータ数に対するニューロン数についての仮定は行われず,怠け者と適応者の両方について結果が得られた。
主な発見は、活性化パターンが一定である期間、活性化パターンは与えられたニューロンを活性化するデータ点の数、勾配流れのダイナミクスの収束の定量化、およびトレーニングデータのサブセット上の局所的最小二乗回帰線の解による静止点のキャラクタリゼーションである。
そこで,本研究では,各ステップにおける活性化パターンの明示的な調整により特徴付けられる,新しい反復学習法である活動ニューロン最小二乗法(anls)を提案する。
図示的な数値の例が全て含まれている。
関連論文リスト
- Take A Shortcut Back: Mitigating the Gradient Vanishing for Training Spiking Neural Networks [15.691263438655842]
Spiking Neural Network(SNN)は生物学的にインスパイアされたニューラルネットワーク基盤であり、最近大きな注目を集めている。
SNNの訓練は、発射スパイクプロセスの未定義の勾配のため、直接的に挑戦する。
本論文では,損失から浅い層に直接勾配を伝達する手法を提案する。
論文 参考訳(メタデータ) (2024-01-09T10:54:41Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Learning time-scales in two-layers neural networks [11.878594839685471]
高次元の広層ニューラルネットワークの勾配流れのダイナミクスについて検討する。
新たな厳密な結果に基づいて,この環境下での学習力学のシナリオを提案する。
論文 参考訳(メタデータ) (2023-02-28T19:52:26Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Early Stage Convergence and Global Convergence of Training Mildly
Parameterized Neural Networks [3.148524502470734]
トレーニングの初期段階において,損失はかなりの量減少し,この減少は急速に進行することを示す。
我々は、ニューロンの活性化パターンを顕微鏡で解析し、勾配のより強力な下界を導出するのに役立つ。
論文 参考訳(メタデータ) (2022-06-05T09:56:50Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Over-parametrized neural networks as under-determined linear systems [31.69089186688224]
単純なニューラルネットワークがトレーニング損失をゼロにできるのは当然のことだ。
ReLUアクティベーション関数に典型的に関連付けられたカーネルには、根本的な欠陥があることが示される。
本稿では,ReLUの落とし穴を避けるための新たなアクティベーション関数を提案する。
論文 参考訳(メタデータ) (2020-10-29T21:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。