論文の概要: Towards Understanding Gradient Flow Dynamics of Homogeneous Neural Networks Beyond the Origin
- arxiv url: http://arxiv.org/abs/2502.15952v1
- Date: Fri, 21 Feb 2025 21:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:56:40.357593
- Title: Towards Understanding Gradient Flow Dynamics of Homogeneous Neural Networks Beyond the Origin
- Title(参考訳): 原点を超える均質ニューラルネットワークの勾配流れのダイナミクスの理解に向けて
- Authors: Akshay Kumar, Jarvis Haupt,
- Abstract要約: 近年の研究では、トレーニングの初期段階では、重量は小さく、起源に近いが、方向は収束していることが確認されている。
本稿では,リプシッツ勾配を持つ同質ニューラルネットワークの起点から逃れた後の勾配流れのダイナミクスについて検討する。
- 参考スコア(独自算出の注目度): 1.9556053645976448
- License:
- Abstract: Recent works exploring the training dynamics of homogeneous neural network weights under gradient flow with small initialization have established that in the early stages of training, the weights remain small and near the origin, but converge in direction. Building on this, the current paper studies the gradient flow dynamics of homogeneous neural networks with locally Lipschitz gradients, after they escape the origin. Insights gained from this analysis are used to characterize the first saddle point encountered by gradient flow after escaping the origin. Also, it is shown that for homogeneous feed-forward neural networks, under certain conditions, the sparsity structure emerging among the weights before the escape is preserved after escaping the origin and until reaching the next saddle point.
- Abstract(参考訳): 初期化が小さい勾配流下での均質ニューラルネットワーク重みのトレーニング力学を探求する最近の研究は、トレーニングの初期段階において、重みは起点付近で小さいが、方向は収束していることを証明している。
これに基づいて、本論文では、リプシッツ勾配を持つ同質ニューラルネットワークの起点から逃れた後の勾配流れのダイナミクスについて研究している。
この分析から得られた洞察は、原点から脱出した後に勾配流に遭遇した最初のサドル点の特徴付けに使用される。
また、均質なフィードフォワードニューラルネットワークの場合、一定の条件下では、脱走前の重みの間に出現する空間構造は、原点を脱し、次のサドル点に到達するまで保存される。
関連論文リスト
- Early Directional Convergence in Deep Homogeneous Neural Networks for Small Initializations [1.9556053645976448]
本稿では,局所的なリプシッツ均質性と2つ以上の厳密な順序を有すると仮定された深部均一性ニューラルネットワークのトレーニング時に生じる勾配流のダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-03-12T23:17:32Z) - Directional Convergence Near Small Initializations and Saddles in Two-Homogeneous Neural Networks [1.9556053645976448]
本稿では, 2-同次ニューラルネットの勾配流ダイナミクスを小型初期化のために検討する。
正方損失のために、ニューラルネットワークは原点に近いときにサドル・アンド・サドル力学を実行する。
このことから,本論文では,あるサドル点近傍において,小さな大きさの重み間でも同様の方向収束性を示す。
論文 参考訳(メタデータ) (2024-02-14T15:10:37Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Gradient flow dynamics of shallow ReLU networks for square loss and
orthogonal inputs [19.401271427657395]
勾配降下法によるニューラルネットワークの訓練は、ディープラーニング革命の基盤となっている。
本稿では,1つのニューラルネットワークの小さな初期化における平均二乗誤差に対する勾配流のダイナミクスについて述べる。
論文 参考訳(メタデータ) (2022-06-02T09:01:25Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Continuous vs. Discrete Optimization of Deep Neural Networks [15.508460240818575]
均一な活性化を伴う深層ニューラルネットワーク上では、勾配流軌跡が良好な曲率を享受できることが示される。
この発見により、深い線形ニューラルネットワーク上の勾配流の解析を、勾配勾配が効率的に大域最小限に収束することを保証できる。
我々は、勾配流の理論が深層学習の背後にある謎の解き放つ中心となると仮定する。
論文 参考訳(メタデータ) (2021-07-14T10:59:57Z) - Vanishing Curvature and the Power of Adaptive Methods in Randomly
Initialized Deep Networks [30.467121747150816]
本稿では,ニューラルネットワークの深部で一般的に発生する,いわゆる消滅勾配現象を再考する。
ネットワーク幅が O(depth) 未満のスケールでは, 消失勾配を回避できないことを示す。
論文 参考訳(メタデータ) (2021-06-07T16:29:59Z) - On the Implicit Bias of Initialization Shape: Beyond Infinitesimal
Mirror Descent [55.96478231566129]
学習モデルを決定する上で,相対スケールが重要な役割を果たすことを示す。
勾配流の誘導バイアスを導出する手法を開発した。
論文 参考訳(メタデータ) (2021-02-19T07:10:48Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。