論文の概要: Early Directional Convergence in Deep Homogeneous Neural Networks for
Small Initializations
- arxiv url: http://arxiv.org/abs/2403.08121v1
- Date: Tue, 12 Mar 2024 23:17:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 16:22:42.303100
- Title: Early Directional Convergence in Deep Homogeneous Neural Networks for
Small Initializations
- Title(参考訳): 深部均一ニューラルネットワークの初期方向収束
小型初期化
- Authors: Akshay Kumar and Jarvis Haupt
- Abstract要約: 本稿では、深部均一性ニューラルネットワークのトレーニング時に発生する勾配流れのダイナミクスについて検討する。
ニューラルネットワークの重みは標準では小さく、カルーシュ=クーン=タッカー点に沿ってほぼ収束している。
- 参考スコア(独自算出の注目度): 2.310288676109785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies the gradient flow dynamics that arise when training deep
homogeneous neural networks, starting with small initializations. The present
work considers neural networks that are assumed to have locally Lipschitz
gradients and an order of homogeneity strictly greater than two. This paper
demonstrates that for sufficiently small initializations, during the early
stages of training, the weights of the neural network remain small in norm and
approximately converge in direction along the Karush-Kuhn-Tucker (KKT) points
of the neural correlation function introduced in [1]. Additionally, for square
loss and under a separability assumption on the weights of neural networks, a
similar directional convergence of gradient flow dynamics is shown near certain
saddle points of the loss function.
- Abstract(参考訳): 本稿では, ニューラルネットワークの学習において発生する勾配流のダイナミクスについて考察する。
本研究は、局所的なリプシッツ勾配と2より厳密な均一性の順序を持つと仮定されるニューラルネットワークについて考察する。
本稿では, トレーニングの初期段階において, ニューラルネットワークの重みは正常に小さく, [1]で導入された神経相関関数のKKT(Karush-Kuhn-Tucker)点に沿ってほぼ収束していることを示す。
さらに、ニューラルネットワークの重みに対する二乗損失と分離性仮定では、同様の勾配流の方向収束が損失関数の特定のサドル点付近で示される。
関連論文リスト
- Novel Kernel Models and Exact Representor Theory for Neural Networks Beyond the Over-Parameterized Regime [52.00917519626559]
本稿では、ニューラルネットワークの2つのモデルと、任意の幅、深さ、トポロジーのニューラルネットワークに適用可能なトレーニングについて述べる。
また、局所外在性神経核(LeNK)の観点から、非正規化勾配降下を伴う階層型ニューラルネットワークトレーニングのための正確な表現子理論を提示する。
この表現論は、ニューラルネットワークトレーニングにおける高次統計学の役割と、ニューラルネットワークのカーネルモデルにおけるカーネル進化の影響について洞察を与える。
論文 参考訳(メタデータ) (2024-05-24T06:30:36Z) - Directional Convergence Near Small Initializations and Saddles in Two-Homogeneous Neural Networks [1.9556053645976448]
本稿では, 2-同次ニューラルネットの勾配流ダイナミクスを小型初期化のために検討する。
正方損失のために、ニューラルネットワークは原点に近いときにサドル・アンド・サドル力学を実行する。
このことから,本論文では,あるサドル点近傍において,小さな大きさの重み間でも同様の方向収束性を示す。
論文 参考訳(メタデータ) (2024-02-14T15:10:37Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - How many Neurons do we need? A refined Analysis for Shallow Networks
trained with Gradient Descent [0.0]
ニューラル・タンジェント・カーネル・システムにおける2層ニューラルネットワークの一般化特性を解析した。
非パラメトリック回帰の枠組みにおいて、最小限最適であることが知られている収束の速い速度を導出する。
論文 参考訳(メタデータ) (2023-09-14T22:10:28Z) - Stabilizing RNN Gradients through Pre-training [3.335932527835653]
学習理論は、勾配が深さや時間で指数関数的に成長するのを防ぎ、トレーニングを安定させ改善することを提案する。
我々は、既知の安定性理論を拡張し、データとパラメータの分布について最小限の仮定を必要とするディープ・リカレント・ネットワークの幅広いファミリーを包含する。
本稿では,この問題を緩和するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-23T11:48:35Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Non-Vacuous Generalisation Bounds for Shallow Neural Networks [5.799808780731661]
我々は、単一の隠蔽層を持つ特定の種類の浅いニューラルネットワークに焦点を当てる。
我々はPAC-ベイジアン理論を通じて新しい一般化を導出する。
ネットワークがMNISTとFashion-MNISTのバニラ勾配勾配降下で訓練される場合,我々の限界は経験的に非空洞である。
論文 参考訳(メタデータ) (2022-02-03T14:59:51Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。