論文の概要: One-pass Stochastic Gradient Descent in Overparametrized Two-layer
Neural Networks
- arxiv url: http://arxiv.org/abs/2105.00262v1
- Date: Sat, 1 May 2021 14:34:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 14:12:59.596213
- Title: One-pass Stochastic Gradient Descent in Overparametrized Two-layer
Neural Networks
- Title(参考訳): オーバーパラメトリズド2層ニューラルネットワークにおける1パス確率勾配勾配
- Authors: Jiaming Xu and Hanjing Zhu
- Abstract要約: 本研究では,1パスsgd下での2層ニューラルネットワークの予測誤差が期待値に収束することを示す。
収束速度は、いわゆるニューラル・タンジェント・カーネル(NTK)に関連する積分作用素の固有分解に依存する
我々の分析の重要なステップは、VC次元とマクダイアルミドの不等式を用いて、ランダムなカーネル関数が高い確率でNTKに収束することを示すことである。
- 参考スコア(独自算出の注目度): 15.789476296152559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been a recent surge of interest in understanding the convergence of
gradient descent (GD) and stochastic gradient descent (SGD) in
overparameterized neural networks. Most previous works assume that the training
data is provided a priori in a batch, while less attention has been paid to the
important setting where the training data arrives in a stream. In this paper,
we study the streaming data setup and show that with overparamterization and
random initialization, the prediction error of two-layer neural networks under
one-pass SGD converges in expectation. The convergence rate depends on the
eigen-decomposition of the integral operator associated with the so-called
neural tangent kernel (NTK). A key step of our analysis is to show a random
kernel function converges to the NTK with high probability using the VC
dimension and McDiarmid's inequality.
- Abstract(参考訳): 過パラメータニューラルネットワークにおける勾配降下(GD)と確率勾配降下(SGD)の収束を理解することへの関心が高まっている。
これまでのほとんどの作業では、トレーニングデータがバッチで事前提供されるが、トレーニングデータがストリームに到着する重要な設定にはあまり注意が払われていない。
本稿では,ストリーミングデータの設定について検討し,過並列化とランダム初期化により,一パスSGD下での2層ニューラルネットワークの予測誤差が期待通りに収束することを示す。
収束速度は、いわゆる神経接核(NTK)に関連する積分作用素の固有分解に依存する。
我々の分析の重要なステップは、VC次元とマクダイアルミドの不等式を用いて、ランダムなカーネル関数が高い確率でNTKに収束することを示すことである。
関連論文リスト
- Observation Noise and Initialization in Wide Neural Networks [9.163214210191814]
任意の事前平均関数を可能にするテキストシフトネットワークを導入する。
我々の理論的な洞察は、観測ノイズとネットワークアーキテクチャの異なる値に関する実験によって実証的に検証されている。
論文 参考訳(メタデータ) (2025-02-03T17:39:45Z) - Gradient Descent Finds Over-Parameterized Neural Networks with Sharp Generalization for Nonparametric Regression [19.988762532185884]
ニューラルネットワークが早期停止でGDによってトレーニングされている場合、トレーニングされたネットワークは、非パラメトリック回帰リスクの急激なレートを示す。
$cO(eps_n2)$は、GDが早期停止でトレーニングした古典的なカーネルレグレッションと同じレートである。
論文 参考訳(メタデータ) (2024-11-05T08:43:54Z) - Preconditioned Gradient Descent Finds Over-Parameterized Neural Networks with Sharp Generalization for Nonparametric Regression [8.130817534654089]
本稿では、勾配降下(GD)またはその変種により訓練された2層ニューラルネットワークによる非パラメトリック回帰を考察する。
ニューラルネットワークが早期停止を伴う新しいプレコンディション付きグラディエント・ディフレクション(PGD)でトレーニングされ、ターゲット関数がディープラーニング文献において広く研究されているスペクトルバイアスを持つ場合、トレーニングされたネットワークは、特に、極小値の最大速度が$cO(1/n4alpha/(4alpha+1)$で制限されたシャープな一般化をレンダリングする。
論文 参考訳(メタデータ) (2024-07-16T03:38:34Z) - How many Neurons do we need? A refined Analysis for Shallow Networks
trained with Gradient Descent [0.0]
ニューラル・タンジェント・カーネル・システムにおける2層ニューラルネットワークの一般化特性を解析した。
非パラメトリック回帰の枠組みにおいて、最小限最適であることが知られている収束の速い速度を導出する。
論文 参考訳(メタデータ) (2023-09-14T22:10:28Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。