論文の概要: One-pass Stochastic Gradient Descent in Overparametrized Two-layer
Neural Networks
- arxiv url: http://arxiv.org/abs/2105.00262v1
- Date: Sat, 1 May 2021 14:34:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 14:12:59.596213
- Title: One-pass Stochastic Gradient Descent in Overparametrized Two-layer
Neural Networks
- Title(参考訳): オーバーパラメトリズド2層ニューラルネットワークにおける1パス確率勾配勾配
- Authors: Jiaming Xu and Hanjing Zhu
- Abstract要約: 本研究では,1パスsgd下での2層ニューラルネットワークの予測誤差が期待値に収束することを示す。
収束速度は、いわゆるニューラル・タンジェント・カーネル(NTK)に関連する積分作用素の固有分解に依存する
我々の分析の重要なステップは、VC次元とマクダイアルミドの不等式を用いて、ランダムなカーネル関数が高い確率でNTKに収束することを示すことである。
- 参考スコア(独自算出の注目度): 15.789476296152559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been a recent surge of interest in understanding the convergence of
gradient descent (GD) and stochastic gradient descent (SGD) in
overparameterized neural networks. Most previous works assume that the training
data is provided a priori in a batch, while less attention has been paid to the
important setting where the training data arrives in a stream. In this paper,
we study the streaming data setup and show that with overparamterization and
random initialization, the prediction error of two-layer neural networks under
one-pass SGD converges in expectation. The convergence rate depends on the
eigen-decomposition of the integral operator associated with the so-called
neural tangent kernel (NTK). A key step of our analysis is to show a random
kernel function converges to the NTK with high probability using the VC
dimension and McDiarmid's inequality.
- Abstract(参考訳): 過パラメータニューラルネットワークにおける勾配降下(GD)と確率勾配降下(SGD)の収束を理解することへの関心が高まっている。
これまでのほとんどの作業では、トレーニングデータがバッチで事前提供されるが、トレーニングデータがストリームに到着する重要な設定にはあまり注意が払われていない。
本稿では,ストリーミングデータの設定について検討し,過並列化とランダム初期化により,一パスSGD下での2層ニューラルネットワークの予測誤差が期待通りに収束することを示す。
収束速度は、いわゆる神経接核(NTK)に関連する積分作用素の固有分解に依存する。
我々の分析の重要なステップは、VC次元とマクダイアルミドの不等式を用いて、ランダムなカーネル関数が高い確率でNTKに収束することを示すことである。
関連論文リスト
- Early Directional Convergence in Deep Homogeneous Neural Networks for
Small Initializations [2.310288676109785]
本稿では、深部均一性ニューラルネットワークのトレーニング時に発生する勾配流れのダイナミクスについて検討する。
ニューラルネットワークの重みは標準では小さく、カルーシュ=クーン=タッカー点に沿ってほぼ収束している。
論文 参考訳(メタデータ) (2024-03-12T23:17:32Z) - How many Neurons do we need? A refined Analysis for Shallow Networks
trained with Gradient Descent [0.0]
ニューラル・タンジェント・カーネル・システムにおける2層ニューラルネットワークの一般化特性を解析した。
非パラメトリック回帰の枠組みにおいて、最小限最適であることが知られている収束の速い速度を導出する。
論文 参考訳(メタデータ) (2023-09-14T22:10:28Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Sharper analysis of sparsely activated wide neural networks with
trainable biases [103.85569570164404]
本研究は,ニューラル・タンジェント・カーネル(NTK)の勾配勾配による一層超過パラメータ化ReLUネットワークのトレーニング研究である。
驚くべきことに、スパシフィケーション後のネットワークは、元のネットワークと同じくらい高速に収束できることが示されている。
一般化境界は制限NTKの最小固有値に依存するため、この研究は制限NTKの最小固有値をさらに研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Early Stage Convergence and Global Convergence of Training Mildly
Parameterized Neural Networks [3.148524502470734]
トレーニングの初期段階において,損失はかなりの量減少し,この減少は急速に進行することを示す。
我々は、ニューロンの活性化パターンを顕微鏡で解析し、勾配のより強力な下界を導出するのに役立つ。
論文 参考訳(メタデータ) (2022-06-05T09:56:50Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。