論文の概要: Magnitude and Angle Dynamics in Training Single ReLU Neurons
- arxiv url: http://arxiv.org/abs/2209.13394v1
- Date: Tue, 27 Sep 2022 13:58:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 16:11:01.620100
- Title: Magnitude and Angle Dynamics in Training Single ReLU Neurons
- Title(参考訳): 単一reluニューロンの訓練における大きさと角度ダイナミクス
- Authors: Sangmin Lee, Byeongsu Sim, Jong Chul Ye
- Abstract要約: 勾配フロー $w(t)$ を等級 $w(t)$ と角 $phi(t):= pi -theta(t) $ に分解する。
小型初期化は深い単一ReLUニューロンに対して緩やかな収束速度を誘導する。
- 参考スコア(独自算出の注目度): 45.886537625951256
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: To understand learning the dynamics of deep ReLU networks, we investigate the
dynamic system of gradient flow $w(t)$ by decomposing it to magnitude $w(t)$
and angle $\phi(t):= \pi - \theta(t) $ components. In particular, for
multi-layer single ReLU neurons with spherically symmetric data distribution
and the square loss function, we provide upper and lower bounds for magnitude
and angle components to describe the dynamics of gradient flow. Using the
obtained bounds, we conclude that small scale initialization induces slow
convergence speed for deep single ReLU neurons. Finally, by exploiting the
relation of gradient flow and gradient descent, we extend our results to the
gradient descent approach. All theoretical results are verified by experiments.
- Abstract(参考訳): 深層reluネットワークのダイナミクスを理解するために,w(t)$をマグニチュード$w(t)$とアングル$\phi(t):= \pi - \theta(t)$コンポーネントに分解することにより,勾配流れの動的系を考察する。
特に、球対称なデータ分布と正方形損失関数を有する多層単一reluニューロンに対して、勾配流のダイナミクスを記述するために、大きさおよび角度成分の上限を上下に設定する。
得られたバウンダリを用いて、小型初期化は深い単一ReLUニューロンに対して緩やかな収束速度をもたらすと結論付ける。
最後に,勾配流と勾配降下の関係を生かして,勾配降下法に結果を拡張した。
すべての理論結果は実験によって検証される。
関連論文リスト
- A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Leveraging Continuous Time to Understand Momentum When Training Diagonal
Linear Networks [21.176224458126285]
ステップサイズ$gamma$と運動量パラメータ$beta$を用いて運動量勾配勾配の解析に連続時間アプローチを用いる。
私たちは、$lambda$の小さな値がスパースソリューションの回復に役立つことを証明しています。
論文 参考訳(メタデータ) (2024-03-08T13:21:07Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Gradient flow dynamics of shallow ReLU networks for square loss and
orthogonal inputs [19.401271427657395]
勾配降下法によるニューラルネットワークの訓練は、ディープラーニング革命の基盤となっている。
本稿では,1つのニューラルネットワークの小さな初期化における平均二乗誤差に対する勾配流のダイナミクスについて述べる。
論文 参考訳(メタデータ) (2022-06-02T09:01:25Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Continuous vs. Discrete Optimization of Deep Neural Networks [15.508460240818575]
均一な活性化を伴う深層ニューラルネットワーク上では、勾配流軌跡が良好な曲率を享受できることが示される。
この発見により、深い線形ニューラルネットワーク上の勾配流の解析を、勾配勾配が効率的に大域最小限に収束することを保証できる。
我々は、勾配流の理論が深層学習の背後にある謎の解き放つ中心となると仮定する。
論文 参考訳(メタデータ) (2021-07-14T10:59:57Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z) - The Impact of the Mini-batch Size on the Variance of Gradients in
Stochastic Gradient Descent [28.148743710421932]
ミニバッチ勾配勾配(SGD)アルゴリズムは機械学習モデルのトレーニングに広く用いられている。
線形回帰および2層線形ネットワーク下でのSGDダイナミクスについて検討し,より深い線形ネットワークへの拡張を容易にする。
論文 参考訳(メタデータ) (2020-04-27T20:06:11Z) - On the Convex Behavior of Deep Neural Networks in Relation to the
Layers' Width [99.24399270311069]
より広いネットワークにおいて、降下最適化による損失を最小限に抑え、トレーニングの開始時と終了時に正の曲率の表面を貫き、その間の曲率をほぼゼロにすることを観察する。
言い換えれば、トレーニングプロセスの重要な部分において、広いネットワークにおけるヘッセンはG成分によって支配されているようである。
論文 参考訳(メタデータ) (2020-01-14T16:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。