Fugu-MT 論文翻訳(概要): Early Directional Convergence in Deep Homogeneous Neural Networks for Small Initializations

論文の概要: Early Directional Convergence in Deep Homogeneous Neural Networks for Small Initializations

arxiv url: http://arxiv.org/abs/2403.08121v1
Date: Tue, 12 Mar 2024 23:17:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 16:22:42.303100
Title: Early Directional Convergence in Deep Homogeneous Neural Networks for Small Initializations
Title（参考訳）: 深部均一ニューラルネットワークの初期方向収束小型初期化
Authors: Akshay Kumar and Jarvis Haupt
Abstract要約: 本稿では、深部均一性ニューラルネットワークのトレーニング時に発生する勾配流れのダイナミクスについて検討する。ニューラルネットワークの重みは標準では小さく、カルーシュ=クーン=タッカー点に沿ってほぼ収束している。
参考スコア（独自算出の注目度）: 2.310288676109785
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper studies the gradient flow dynamics that arise when training deep homogeneous neural networks, starting with small initializations. The present work considers neural networks that are assumed to have locally Lipschitz gradients and an order of homogeneity strictly greater than two. This paper demonstrates that for sufficiently small initializations, during the early stages of training, the weights of the neural network remain small in norm and approximately converge in direction along the Karush-Kuhn-Tucker (KKT) points of the neural correlation function introduced in [1]. Additionally, for square loss and under a separability assumption on the weights of neural networks, a similar directional convergence of gradient flow dynamics is shown near certain saddle points of the loss function.
Abstract（参考訳）: 本稿では, ニューラルネットワークの学習において発生する勾配流のダイナミクスについて考察する。本研究は、局所的なリプシッツ勾配と2より厳密な均一性の順序を持つと仮定されるニューラルネットワークについて考察する。本稿では, トレーニングの初期段階において, ニューラルネットワークの重みは正常に小さく, [1]で導入された神経相関関数のKKT(Karush-Kuhn-Tucker)点に沿ってほぼ収束していることを示す。さらに、ニューラルネットワークの重みに対する二乗損失と分離性仮定では、同様の勾配流の方向収束が損失関数の特定のサドル点付近で示される。

関連論文リスト

Towards Understanding Gradient Flow Dynamics of Homogeneous Neural Networks Beyond the Origin [1.9556053645976448]
近年の研究では、トレーニングの初期段階では、重量は小さく、起源に近いが、方向は収束していることが確認されている。本稿では,リプシッツ勾配を持つ同質ニューラルネットワークの起点から逃れた後の勾配流れのダイナミクスについて検討する。
論文参考訳（メタデータ） (2025-02-21T21:32:31Z)
Novel Kernel Models and Exact Representor Theory for Neural Networks Beyond the Over-Parameterized Regime [52.00917519626559]
本稿では、ニューラルネットワークの2つのモデルと、任意の幅、深さ、トポロジーのニューラルネットワークに適用可能なトレーニングについて述べる。また、局所外在性神経核(LeNK)の観点から、非正規化勾配降下を伴う階層型ニューラルネットワークトレーニングのための正確な表現子理論を提示する。この表現論は、ニューラルネットワークトレーニングにおける高次統計学の役割と、ニューラルネットワークのカーネルモデルにおけるカーネル進化の影響について洞察を与える。
論文参考訳（メタデータ） (2024-05-24T06:30:36Z)
Directional Convergence Near Small Initializations and Saddles in Two-Homogeneous Neural Networks [1.9556053645976448]
本稿では, 2-同次ニューラルネットの勾配流ダイナミクスを小型初期化のために検討する。正方損失のために、ニューラルネットワークは原点に近いときにサドル・アンド・サドル力学を実行する。このことから,本論文では,あるサドル点近傍において,小さな大きさの重み間でも同様の方向収束性を示す。
論文参考訳（メタデータ） (2024-02-14T15:10:37Z)
Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文参考訳（メタデータ） (2023-10-29T08:47:48Z)
How many Neurons do we need? A refined Analysis for Shallow Networks trained with Gradient Descent [0.0]
ニューラル・タンジェント・カーネル・システムにおける2層ニューラルネットワークの一般化特性を解析した。非パラメトリック回帰の枠組みにおいて、最小限最適であることが知られている収束の速い速度を導出する。
論文参考訳（メタデータ） (2023-09-14T22:10:28Z)
Stabilizing RNN Gradients through Pre-training [3.335932527835653]
学習理論は、勾配が深さや時間で指数関数的に成長するのを防ぎ、トレーニングを安定させ改善することを提案する。我々は、既知の安定性理論を拡張し、データとパラメータの分布について最小限の仮定を必要とするディープ・リカレント・ネットワークの幅広いファミリーを包含する。本稿では,この問題を緩和するための新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-08-23T11:48:35Z)
Understanding the Initial Condensation of Convolutional Neural Networks [6.451914896767135]
2層畳み込みニューラルネットワークのカーネルは、トレーニング中に1つまたは数つの方向に収束する。この研究は、特殊な構造を持つニューラルネットワークが示す非線形トレーニングの振る舞いをより深く理解するための一歩である。
論文参考訳（メタデータ） (2023-05-17T05:00:47Z)
Phase Diagram of Initial Condensation for Two-layer Neural Networks [4.404198015660192]
2層ニューラルネットワークの初期凝縮の位相図を示す。私たちのフェーズダイアグラムは、ニューラルネットワークの動的構造を包括的に理解するのに役立ちます。
論文参考訳（メタデータ） (2023-03-12T03:55:38Z)
Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文参考訳（メタデータ） (2023-02-01T03:18:07Z)
Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文参考訳（メタデータ） (2023-01-01T02:11:39Z)
Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文参考訳（メタデータ） (2022-10-13T15:09:54Z)
Gradient flow dynamics of shallow ReLU networks for square loss and orthogonal inputs [19.401271427657395]
勾配降下法によるニューラルネットワークの訓練は、ディープラーニング革命の基盤となっている。本稿では,1つのニューラルネットワークの小さな初期化における平均二乗誤差に対する勾配流のダイナミクスについて述べる。
論文参考訳（メタデータ） (2022-06-02T09:01:25Z)
Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。 SGDは単純な解に偏りがあることが示される。また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文参考訳（メタデータ） (2021-11-03T15:14:20Z)
Optimal Rates for Averaged Stochastic Gradient Descent under Neural Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文参考訳（メタデータ） (2020-06-22T14:31:37Z)
A Generalized Neural Tangent Kernel Analysis for Two-layer Neural Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。これは、トレーニング損失が一定の精度まで線形に収束することを意味する。また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文参考訳（メタデータ） (2020-02-10T18:56:15Z)
On the Convex Behavior of Deep Neural Networks in Relation to the Layers' Width [99.24399270311069]
より広いネットワークにおいて、降下最適化による損失を最小限に抑え、トレーニングの開始時と終了時に正の曲率の表面を貫き、その間の曲率をほぼゼロにすることを観察する。言い換えれば、トレーニングプロセスの重要な部分において、広いネットワークにおけるヘッセンはG成分によって支配されているようである。
論文参考訳（メタデータ） (2020-01-14T16:30:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。