論文の概要: Learning Lipschitz Functions by GD-trained Shallow Overparameterized
ReLU Neural Networks
- arxiv url: http://arxiv.org/abs/2212.13848v1
- Date: Wed, 28 Dec 2022 14:56:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 14:42:52.287585
- Title: Learning Lipschitz Functions by GD-trained Shallow Overparameterized
ReLU Neural Networks
- Title(参考訳): GD-trained Shallow Overparameterized ReLU Neural Networksによるリプシッツ関数の学習
- Authors: Ilja Kuzborskij, Csaba Szepesv\'ari
- Abstract要約: このクラスでは、トレーニングエラーのほとんどゼロにトレーニングされたニューラルネットワークが矛盾していることが示される。
ReLUアクティベーション関数によって誘導されるカーネルのヒルベルト空間上で、何らかの早期停止規則が最適率(過剰リスク)を与えることが保証されたとき、同じ規則を極大最適率を達成するために使うことができることを示す。
- 参考スコア(独自算出の注目度): 12.018422134251384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore the ability of overparameterized shallow ReLU neural networks to
learn Lipschitz, non-differentiable, bounded functions with additive noise when
trained by Gradient Descent (GD). To avoid the problem that in the presence of
noise, neural networks trained to nearly zero training error are inconsistent
in this class, we focus on the early-stopped GD which allows us to show
consistency and optimal rates. In particular, we explore this problem from the
viewpoint of the Neural Tangent Kernel (NTK) approximation of a GD-trained
finite-width neural network. We show that whenever some early stopping rule is
guaranteed to give an optimal rate (of excess risk) on the Hilbert space of the
kernel induced by the ReLU activation function, the same rule can be used to
achieve minimax optimal rate for learning on the class of considered Lipschitz
functions by neural networks. We discuss several data-free and data-dependent
practically appealing stopping rules that yield optimal rates.
- Abstract(参考訳): グラディエント・Descent (GD) による学習において, 過パラメータ化された浅部ReLUニューラルネットワークによる非微分可能境界関数リプシッツの学習能力について検討した。
ノイズの存在下では、このクラスではトレーニングエラーのほとんどゼロにトレーニングされたニューラルネットワークが不整合であることを回避するために、一貫性と最適なレートを示すことができる早期停止型GDに焦点を当てる。
特に,gd訓練された有限幅ニューラルネットワークの神経接核近似(neural tangent kernel:ntk)の観点からこの問題を考察する。
ReLUアクティベーション関数によって誘導されるカーネルのヒルベルト空間上で、何らかの早期停止規則が最適速度(過剰リスク)を与えることが保証された場合、ニューラルネットワークにより検討されたリプシッツ関数のクラスで学習するために、同じ規則を極小最大速度を達成することができる。
本稿では,データフリーかつデータ依存的な停止規則について検討する。
関連論文リスト
- Controlling the Inductive Bias of Wide Neural Networks by Modifying the Kernel's Spectrum [18.10812063219831]
所望の固有値を持つカーネルに改良スペクトルカーネル(MSK)を導入する。
本研究では,勾配勾配の軌道を変化させる事前条件付き勾配降下法を提案する。
私たちの手法は計算効率が良く、実装も簡単です。
論文 参考訳(メタデータ) (2023-07-26T22:39:47Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Benign Overfitting for Two-layer ReLU Convolutional Neural Networks [60.19739010031304]
ラベルフリップ雑音を持つ2層ReLU畳み込みニューラルネットワークを学習するためのアルゴリズム依存型リスクバウンダリを確立する。
緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。
論文 参考訳(メタデータ) (2023-03-07T18:59:38Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Training Certifiably Robust Neural Networks with Efficient Local
Lipschitz Bounds [99.23098204458336]
認証された堅牢性は、安全クリティカルなアプリケーションにおいて、ディープニューラルネットワークにとって望ましい性質である。
提案手法は,MNISTおよびTinyNetデータセットにおける最先端の手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-11-02T06:44:10Z) - Nonparametric Regression with Shallow Overparameterized Neural Networks
Trained by GD with Early Stopping [11.24426822697648]
GD(Gradient Descent)によってトレーニングされたニューラルネットワークは,入力に対してスムーズであることを示す。
ノイズフリーの場合、証明はいかなる核化にも依存せず、有限幅の結果と見なすことができる。
論文 参考訳(メタデータ) (2021-07-12T11:56:53Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。