論文の概要: Geometry of the Loss Landscape in Overparameterized Neural Networks:
Symmetries and Invariances
- arxiv url: http://arxiv.org/abs/2105.12221v1
- Date: Tue, 25 May 2021 21:19:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 06:34:29.109027
- Title: Geometry of the Loss Landscape in Overparameterized Neural Networks:
Symmetries and Invariances
- Title(参考訳): 過パラメータニューラルネットワークにおける損失景観の幾何学:対称性と不変性
- Authors: Berfin \c{S}im\c{s}ek, Fran\c{c}ois Ged, Arthur Jacot, Francesco
Spadaro, Cl\'ement Hongler, Wulfram Gerstner, Johanni Brea
- Abstract要約: それぞれに1つの余分なニューロンを加えると、以前の離散ミニマを1つの多様体に接続するのに十分であることを示す。
- 参考スコア(独自算出の注目度): 9.390008801320024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how permutation symmetries in overparameterized multi-layer neural
networks generate `symmetry-induced' critical points. Assuming a network with $
L $ layers of minimal widths $ r_1^*, \ldots, r_{L-1}^* $ reaches a zero-loss
minimum at $ r_1^*! \cdots r_{L-1}^*! $ isolated points that are permutations
of one another, we show that adding one extra neuron to each layer is
sufficient to connect all these previously discrete minima into a single
manifold. For a two-layer overparameterized network of width $ r^*+ h =: m $ we
explicitly describe the manifold of global minima: it consists of $ T(r^*, m) $
affine subspaces of dimension at least $ h $ that are connected to one another.
For a network of width $m$, we identify the number $G(r,m)$ of affine subspaces
containing only symmetry-induced critical points that are related to the
critical points of a smaller network of width $r<r^*$. Via a combinatorial
analysis, we derive closed-form formulas for $ T $ and $ G $ and show that the
number of symmetry-induced critical subspaces dominates the number of affine
subspaces forming the global minima manifold in the mildly overparameterized
regime (small $ h $) and vice versa in the vastly overparameterized regime ($h
\gg r^*$). Our results provide new insights into the minimization of the
non-convex loss function of overparameterized neural networks.
- Abstract(参考訳): 過パラメータ化多層ニューラルネットワークにおける置換対称性が「対称性誘起」臨界点を生成する方法を検討した。
l $ 最小幅のネットワークを仮定すると、$ r_1^*, \ldots, r_{l-1}^* $ は$ r_1^* でゼロロスの最小値に達する。
幅$ r^*+ h =: m $ は大域ミニマの多様体を明示的に記述する: $ T(r^*, m) $ affine subspaces of dimension at least $ h $ connected with each。
組合せ解析により、T $ と G $ の閉形式式を導出し、対称性によって誘導される臨界部分空間の数が、わずかに過度に過度に過度に過度に過度な状態(h $)で大域的なミニマ多様体を形成するアフィン部分空間の数を支配していることを示す。
- Deep Neural Networks: Multi-Classification and Universal Approximation [0.0]
また、$W1,p$関数を近似するための深さ推定と$Lp(Omega;mathbbRm)$ for $mgeq1$を近似するための幅推定も提供する。
論文 参考訳(メタデータ) (2024-09-10T14:31:21Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Geometric structure of shallow neural networks and constructive ${\mathcal L}^2$ cost minimization [1.189367612437469]
隠れた1つの層を持つ浅層ニューラルネットワーク、ReLUアクティベーション関数、$mathcal L2$ Schattenクラス(Hilbert-Schmidt)のコスト関数を考える。
特別の場合、$M=Q$ において、コスト関数の正確な退化局所極小を明示的に決定し、そのシャープ値が a の$Qleq M$ に対して得られる上限値と異なることを示す。
論文 参考訳(メタデータ) (2023-09-19T07:12:41Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - Neural Networks Efficiently Learn Low-Dimensional Representations with
SGD [22.703825902761405]
SGDで訓練されたReLU NNは、主方向を回復することで、$y=f(langleboldsymbolu,boldsymbolxrangle) + epsilon$という形の単一インデックスターゲットを学習できることを示す。
論文 参考訳(メタデータ) (2022-09-29T15:29:10Z) - Near-optimal fitting of ellipsoids to random points [68.12685213894112]
我々はこの予想を、ある$n = Omega(, d2/mathrmpolylog(d))$ に対する適合楕円体を構成することで対数的因子まで解決する。
論文 参考訳(メタデータ) (2022-08-19T18:00:34Z) - Shallow neural network representation of polynomials [91.3755431537592]
論文 参考訳(メタデータ) (2022-08-17T08:14:52Z) - On minimal representations of shallow ReLU networks [0.0]
論文 参考訳(メタデータ) (2021-08-12T10:22:24Z) - Small Covers for Near-Zero Sets of Polynomials and Learning Latent
Variable Models [56.98280399449707]
我々は、s$ of cardinality $m = (k/epsilon)o_d(k1/d)$ に対して $epsilon$-cover が存在することを示す。
論文 参考訳(メタデータ) (2020-12-14T18:14:08Z) - A deep network construction that adapts to intrinsic dimensionality
beyond the domain [79.23797234241471]
本稿では,ReLUを活性化したディープネットワークを用いて,2層合成の近似を$f(x) = g(phi(x))$で検討する。
論文 参考訳(メタデータ) (2020-08-06T09:50:29Z)