論文の概要: Nonparametric Regression with Shallow Overparameterized Neural Networks
Trained by GD with Early Stopping
- arxiv url: http://arxiv.org/abs/2107.05341v1
- Date: Mon, 12 Jul 2021 11:56:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 16:12:24.756278
- Title: Nonparametric Regression with Shallow Overparameterized Neural Networks
Trained by GD with Early Stopping
- Title(参考訳): 早期停止を伴うGD訓練による低パラメータニューラルネットワークによる非パラメトリック回帰
- Authors: Ilja Kuzborskij, Csaba Szepesv\'ari
- Abstract要約: GD(Gradient Descent)によってトレーニングされたニューラルネットワークは,入力に対してスムーズであることを示す。
ノイズフリーの場合、証明はいかなる核化にも依存せず、有限幅の結果と見なすことができる。
- 参考スコア(独自算出の注目度): 11.24426822697648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the ability of overparameterized shallow neural networks to learn
Lipschitz regression functions with and without label noise when trained by
Gradient Descent (GD). To avoid the problem that in the presence of noisy
labels, neural networks trained to nearly zero training error are inconsistent
on this class, we propose an early stopping rule that allows us to show optimal
rates. This provides an alternative to the result of Hu et al. (2021) who
studied the performance of $\ell 2$ -regularized GD for training shallow
networks in nonparametric regression which fully relied on the infinite-width
network (Neural Tangent Kernel (NTK)) approximation. Here we present a simpler
analysis which is based on a partitioning argument of the input space (as in
the case of 1-nearest-neighbor rule) coupled with the fact that trained neural
networks are smooth with respect to their inputs when trained by GD. In the
noise-free case the proof does not rely on any kernelization and can be
regarded as a finite-width result. In the case of label noise, by slightly
modifying the proof, the noise is controlled using a technique of Yao, Rosasco,
and Caponnetto (2007).
- Abstract(参考訳): 勾配降下 (gd) によって訓練された場合, ラベル雑音を伴わずにリプシッツ回帰関数を学習できる, 過パラメータな浅層ニューラルネットワークの能力について検討した。
ノイズラベルの存在下では、トレーニングエラーをほとんどゼロにトレーニングしたニューラルネットワークは、このクラスでは一貫性がないという問題を避けるため、最適なレートを示すための早期停止ルールを提案する。
これはHu et alの結果の代替となる。
(2021年) 無限幅ネットワーク(神経接核(ntk))近似に完全に依存する非パラメトリック回帰(nonparametric regression)の浅層ネットワークを訓練するための$\ell 2$-regularized gdの性能を研究した。
本稿では、GDによりトレーニングされたニューラルネットワークが入力に対して滑らかであるという事実と相まって、入力空間の分割引数(例えば1-アネレス近傍規則の場合)に基づくより単純な分析を行う。
ノイズフリーの場合、証明はいかなる核化にも依存せず、有限幅の結果と見なすことができる。
ラベルノイズの場合、証明を少し修正することで、このノイズはYao, Rosasco, Caponnetto (2007) の技法で制御される。
関連論文リスト
- Gradient Descent Finds Over-Parameterized Neural Networks with Sharp Generalization for Nonparametric Regression: A Distribution-Free Analysis [19.988762532185884]
ニューラルネットワークが早期停止でGDによってトレーニングされている場合、トレーニングされたネットワークは、非パラメトリック回帰リスクが$cO(eps_n2)$のシャープレートを示す。
本研究の結果は,トレーニングデータに分布的な仮定を必要としないことが示唆された。
論文 参考訳(メタデータ) (2024-11-05T08:43:54Z) - Sharper Guarantees for Learning Neural Network Classifiers with Gradient Methods [43.32546195968771]
本研究では,スムーズなアクティベーションを有するニューラルネットワークに対する勾配法におけるデータ依存収束と一般化挙動について検討する。
我々の結果は、よく確立されたRadecher複雑性に基づく境界の欠点を改善した。
XOR分布の分類において、NTK体制の結果に対して大きなステップサイズが大幅に改善されることが示されている。
論文 参考訳(メタデータ) (2024-10-13T21:49:29Z) - Epistemic Uncertainty and Observation Noise with the Neural Tangent Kernel [12.464924018243988]
近年の研究では、勾配降下による広いニューラルネットワークのトレーニングは、ガウス過程における後部分布の平均を計算することと正式に等価であることが示されている。
非ゼロアレタリックノイズに対処する方法を示し, 後部共分散推定器を導出する。
論文 参考訳(メタデータ) (2024-09-06T00:34:44Z) - Benign Overfitting for Two-layer ReLU Convolutional Neural Networks [60.19739010031304]
ラベルフリップ雑音を持つ2層ReLU畳み込みニューラルネットワークを学習するためのアルゴリズム依存型リスクバウンダリを確立する。
緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。
論文 参考訳(メタデータ) (2023-03-07T18:59:38Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Learning Lipschitz Functions by GD-trained Shallow Overparameterized
ReLU Neural Networks [12.018422134251384]
このクラスでは、トレーニングエラーのほとんどゼロにトレーニングされたニューラルネットワークが矛盾していることが示される。
ReLUアクティベーション関数によって誘導されるカーネルのヒルベルト空間上で、何らかの早期停止規則が最適率(過剰リスク)を与えることが保証されたとき、同じ規則を極大最適率を達成するために使うことができることを示す。
論文 参考訳(メタデータ) (2022-12-28T14:56:27Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Learning Frequency Domain Approximation for Binary Neural Networks [68.79904499480025]
フーリエ周波数領域における符号関数の勾配を正弦関数の組み合わせを用いて推定し,BNNの訓練を行う。
いくつかのベンチマークデータセットとニューラルネットワークの実験により、この手法で学習したバイナリネットワークが最先端の精度を達成することが示されている。
論文 参考訳(メタデータ) (2021-03-01T08:25:26Z) - Regularization Matters: A Nonparametric Perspective on Overparametrized
Neural Network [20.132432350255087]
タンジェント降下(GD)によってトレーニングされた過度にパラメータ化されたニューラルネットワークは、任意のトレーニングデータを確実に過度に適合させることができる。
本稿では、過度にパラメータ化されたニューラルネットワークが、ランダムノイズの存在下での真のターゲット関数をいかに回復するかを考察する。
論文 参考訳(メタデータ) (2020-07-06T01:02:23Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。