論文の概要: Directional Convergence Near Small Initializations and Saddles in Two-Homogeneous Neural Networks
- arxiv url: http://arxiv.org/abs/2402.09226v2
- Date: Thu, 20 Jun 2024 18:53:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 19:58:24.474054
- Title: Directional Convergence Near Small Initializations and Saddles in Two-Homogeneous Neural Networks
- Title(参考訳): 2均質ニューラルネットワークにおける微小初期化近傍の方向収束
- Authors: Akshay Kumar, Jarvis Haupt,
- Abstract要約: 本稿では, 2-同次ニューラルネットの勾配流ダイナミクスを小型初期化のために検討する。
正方損失のために、ニューラルネットワークは原点に近いときにサドル・アンド・サドル力学を実行する。
このことから,本論文では,あるサドル点近傍において,小さな大きさの重み間でも同様の方向収束性を示す。
- 参考スコア(独自算出の注目度): 1.9556053645976448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper examines gradient flow dynamics of two-homogeneous neural networks for small initializations, where all weights are initialized near the origin. For both square and logistic losses, it is shown that for sufficiently small initializations, the gradient flow dynamics spend sufficient time in the neighborhood of the origin to allow the weights of the neural network to approximately converge in direction to the Karush-Kuhn-Tucker (KKT) points of a neural correlation function that quantifies the correlation between the output of the neural network and corresponding labels in the training data set. For square loss, it has been observed that neural networks undergo saddle-to-saddle dynamics when initialized close to the origin. Motivated by this, this paper also shows a similar directional convergence among weights of small magnitude in the neighborhood of certain saddle points.
- Abstract(参考訳): そこで本研究では,各重みが始点付近で初期化される小さな初期化のための2次元均一ニューラルネットワークの勾配流れのダイナミクスについて検討する。
正方形とロジスティックの両方の損失に対して、十分に小さな初期化の場合、勾配流のダイナミクスは、ニューラルネットワークの重みをニューラルネットワークの出力とトレーニングデータセットの対応するラベルとの相関を定量化するニューラルネットワーク関数のKKT(Karush-Kuhn-Tucker)点にほぼ収束させるのに十分な時間を原点近傍で過ごすことが示されている。
正方形損失のために、ニューラルネットワークは原点に近い初期化時にサドル・アンド・サドル力学を実行することが観察されている。
このことから,本論文では,あるサドル点近傍において,小さな大きさの重み間でも同様の方向収束性を示す。
関連論文リスト
- Early Directional Convergence in Deep Homogeneous Neural Networks for
Small Initializations [2.310288676109785]
本稿では、深部均一性ニューラルネットワークのトレーニング時に発生する勾配流れのダイナミクスについて検討する。
ニューラルネットワークの重みは標準では小さく、カルーシュ=クーン=タッカー点に沿ってほぼ収束している。
論文 参考訳(メタデータ) (2024-03-12T23:17:32Z) - Understanding the Initial Condensation of Convolutional Neural Networks [6.451914896767135]
2層畳み込みニューラルネットワークのカーネルは、トレーニング中に1つまたは数つの方向に収束する。
この研究は、特殊な構造を持つニューラルネットワークが示す非線形トレーニングの振る舞いをより深く理解するための一歩である。
論文 参考訳(メタデータ) (2023-05-17T05:00:47Z) - Phase Diagram of Initial Condensation for Two-layer Neural Networks [4.404198015660192]
2層ニューラルネットワークの初期凝縮の位相図を示す。
私たちのフェーズダイアグラムは、ニューラルネットワークの動的構造を包括的に理解するのに役立ちます。
論文 参考訳(メタデータ) (2023-03-12T03:55:38Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - The edge of chaos: quantum field theory and deep neural networks [0.0]
我々は、ディープニューラルネットワークの一般クラスに対応する量子場理論を明示的に構築する。
我々は、深さ$T$と幅$N$との比の摂動展開において、相関関数に対するループ補正を計算する。
我々の分析は、急速に出現するNN-QFT対応に対する第一原理のアプローチを提供し、ディープニューラルネットワークの臨界性の研究にいくつかの興味深い道を開く。
論文 参考訳(メタデータ) (2021-09-27T18:00:00Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。