論文の概要: Analytic Study of Families of Spurious Minima in Two-Layer ReLU Neural
Networks
- arxiv url: http://arxiv.org/abs/2107.10370v1
- Date: Wed, 21 Jul 2021 22:05:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-23 15:20:57.755810
- Title: Analytic Study of Families of Spurious Minima in Two-Layer ReLU Neural
Networks
- Title(参考訳): 2層ReLUニューラルネットワークにおけるスプリアスミニマの家族解析
- Authors: Yossi Arjevani, Michael Field
- Abstract要約: ヘッセンスペクトルは、$d$で成長する$Theta(d)$固有値を除いて、正近傍に集中していることが示される。
これにより、分岐理論の強力な道具を用いてミニマの作成と消滅が可能となる。
- 参考スコア(独自算出の注目度): 15.711517003382484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the optimization problem associated with fitting two-layer ReLU
neural networks with respect to the squared loss, where labels are generated by
a target network. We make use of the rich symmetry structure to develop a novel
set of tools for studying families of spurious minima. In contrast to existing
approaches which operate in limiting regimes, our technique directly addresses
the nonconvex loss landscape for a finite number of inputs $d$ and neurons $k$,
and provides analytic, rather than heuristic, information. In particular, we
derive analytic estimates for the loss at different minima, and prove that
modulo $O(d^{-1/2})$-terms the Hessian spectrum concentrates near small
positive constants, with the exception of $\Theta(d)$ eigenvalues which grow
linearly with~$d$. We further show that the Hessian spectrum at global and
spurious minima coincide to $O(d^{-1/2})$-order, thus challenging our ability
to argue about statistical generalization through local curvature. Lastly, our
technique provides the exact \emph{fractional} dimensionality at which families
of critical points turn from saddles into spurious minima. This makes possible
the study of the creation and the annihilation of spurious minima using
powerful tools from equivariant bifurcation theory.
- Abstract(参考訳): ターゲットネットワークによってラベルが生成される2層ReLUニューラルネットワークの2乗損失に関する最適化問題について検討する。
我々は,スプリアスミニマの家族を研究するための新しいツールセットを開発するために,リッチ対称性構造を利用する。
制限レシエーションを運用する既存のアプローチとは対照的に、我々の手法は有限個の入力に対して$d$とニューロン$k$の非凸ロスランドスケープを直接処理し、ヒューリスティックな情報よりも解析的な情報を提供する。
特に、異なるミニマでの損失に関する解析的推定を導出し、モジュラー $o(d^{-1/2})$-項が小さな正の定数の近くに集中することを証明し、ただし$\theta(d)$ の固有値を除いて、−$d$ で線形に成長する。
さらに、大域的および散発的ミニマにおけるヘッセンスペクトルは、o(d^{-1/2})$-order と一致することを示し、局所曲率による統計的一般化について議論する能力に挑戦する。
最後に、我々の手法は、臨界点の族がサドルからスプリアスミニマへと変化する正確な 'emph{fractional} 次元性を提供する。
これにより、等変分岐理論の強力なツールを用いて、スプリアスミニマの生成と消滅の研究が可能になる。
関連論文リスト
- Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Information-Theoretic Thresholds for Planted Dense Cycles [52.076657911275525]
本研究では,社会科学や生物科学においてユビキタスな小世界ネットワークのランダムグラフモデルについて検討する。
植え込み高密度サイクルの検出と回復の両面において、情報理論の閾値を$n$, $tau$、エッジワイド信号対雑音比$lambda$で特徴づける。
論文 参考訳(メタデータ) (2024-02-01T03:39:01Z) - Hidden Minima in Two-Layer ReLU Networks [7.23389716633927]
最近、$d$あたりの最小値を与える2種類のスプリアスミニマの無限族が発見された。
最初の型に属するミニマの損失は、$d$が増加するにつれて0に収束する。
第2の型では、損失はゼロから切り離されたままである。
論文 参考訳(メタデータ) (2023-12-28T04:27:15Z) - Annihilation of Spurious Minima in Two-Layer ReLU Networks [9.695960412426672]
正方形損失に対する2層ReLUニューラルネットワークの適合に関する最適化問題について検討する。
ニューロンを追加することで、対称的な刺激性のミニマをサドルに変えることができる。
また、損失関数の対称性構造から生じるある種の部分空間における降下方向の存在を証明した。
論文 参考訳(メタデータ) (2022-10-12T11:04:21Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Analytic Characterization of the Hessian in Shallow ReLU Models: A Tale
of Symmetry [9.695960412426672]
我々は,スプリアスミニマの様々な家系でヘッセンを解析的に特徴付ける。
特に、$dge k$ 標準ガウス入力について、 (a) ヘッセンの $dk$ 固有値の内、$dk - O(d)$ が 0 に近づき、 (b) $Omega(d)$ 固有値は $k$ で線型的に増加することを証明している。
論文 参考訳(メタデータ) (2020-08-04T20:08:35Z) - Symmetry & critical points for a model shallow neural network [9.695960412426672]
我々は、2層ReLUネットワークに$kの隠れニューロンを組み込む際の最適化問題を考察する。
このようなモデルで示されるリッチ対称性を利用して、臨界点の様々な族を同定する。
ある種のスプリアスミニマの損失関数は$k-1$のようにゼロに崩壊するが、別の場合では損失関数は厳密な正の定数に収束する。
論文 参考訳(メタデータ) (2020-03-23T23:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。