論文の概要: Optimization and Generalization of Shallow Neural Networks with
Quadratic Activation Functions
- arxiv url: http://arxiv.org/abs/2006.15459v3
- Date: Tue, 18 Aug 2020 18:54:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 07:33:14.828812
- Title: Optimization and Generalization of Shallow Neural Networks with
Quadratic Activation Functions
- Title(参考訳): 二次活性化関数を持つ浅層ニューラルネットワークの最適化と一般化
- Authors: Stefano Sarao Mannelli, Eric Vanden-Eijnden, and Lenka Zdeborov\'a
- Abstract要約: 本研究では,一層ニューラルネットワークの最適化と一般化特性について検討する。
本研究では,教師が小幅の隠蔽層を持つ学生と同じ構造を持つ教師学生シナリオについて考察する。
同じ条件下では、経験的損失の勾配降下ダイナミクスが収束し、小さな一般化誤差をもたらすことが示される。
- 参考スコア(独自算出の注目度): 11.70706646606773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the dynamics of optimization and the generalization properties of
one-hidden layer neural networks with quadratic activation function in the
over-parametrized regime where the layer width $m$ is larger than the input
dimension $d$.
We consider a teacher-student scenario where the teacher has the same
structure as the student with a hidden layer of smaller width $m^*\le m$.
We describe how the empirical loss landscape is affected by the number $n$ of
data samples and the width $m^*$ of the teacher network. In particular we
determine how the probability that there be no spurious minima on the empirical
loss depends on $n$, $d$, and $m^*$, thereby establishing conditions under
which the neural network can in principle recover the teacher.
We also show that under the same conditions gradient descent dynamics on the
empirical loss converges and leads to small generalization error, i.e. it
enables recovery in practice.
Finally we characterize the time-convergence rate of gradient descent in the
limit of a large number of samples.
These results are confirmed by numerical experiments.
- Abstract(参考訳): 層幅$m$が入力次元$d$よりも大きいオーバーパラメトリケート状態下での2次活性化関数を持つ一隠れ層ニューラルネットワークの最適化のダイナミクスと一般化特性について検討した。
教師が生徒と同じ構造を持つ教師が、より幅の小さい$m^*\le m$ の隠れた層を持つような教師・生徒のシナリオを考える。
本稿では,データサンプル数$n$と教師ネットワーク幅$m^*$の影響について述べる。
特に、経験的損失にスパーラスなミニマがないことの確率が、n$、$d$、$m^*$に依存するかどうかを判断し、ニューラルネットワークが原則として教師を回復できる条件を確立する。
また、同じ条件下では、経験的損失の勾配降下ダイナミクスが収束し、小さな一般化誤差、すなわち、実際に回復できることを示す。
最後に,多数の試料の限界における勾配降下の時間収束率を特徴付ける。
これらの結果は数値実験によって確認される。
関連論文リスト
- Learning a Neuron by a Shallow ReLU Network: Dynamics and Implicit Bias
for Correlated Inputs [5.7166378791349315]
我々は、単一ニューロンを学習する基本的な回帰タスクとして、1つの隠れた層ReLUネットワークをトレーニングすると、損失がゼロとなることを証明した。
また、最小ランクの補間ネットワークと最小ユークリッドノルムの補間ネットワークのこの設定において、驚くべき区別を示し、特徴付ける。
論文 参考訳(メタデータ) (2023-06-10T16:36:22Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - On the Optimization Landscape of Neural Collapse under MSE Loss: Global
Optimality with Unconstrained Features [38.05002597295796]
簡易等角密閉フレーム(ETF)の頂点に崩壊する崩壊層
興味深い経験的現象が、タスクのためのディープニューラルネットワークの最後の層と特徴で広く観測されている。
論文 参考訳(メタデータ) (2022-03-02T17:00:18Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - A Geometric Analysis of Neural Collapse with Unconstrained Features [40.66585948844492]
Neural;Collapse$の最初のグローバル最適化ランドスケープ分析を提供します。
この現象は、トレーニングの終末期におけるニューラルネットワークのラスト層分類器と特徴に現れる。
論文 参考訳(メタデータ) (2021-05-06T00:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。