論文の概要: Symmetry & critical points for a model shallow neural network
- arxiv url: http://arxiv.org/abs/2003.10576v5
- Date: Thu, 11 Mar 2021 11:08:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 23:59:35.468465
- Title: Symmetry & critical points for a model shallow neural network
- Title(参考訳): モデル浅部ニューラルネットワークの対称性と臨界点
- Authors: Yossi Arjevani and Michael Field
- Abstract要約: 我々は、2層ReLUネットワークに$kの隠れニューロンを組み込む際の最適化問題を考察する。
このようなモデルで示されるリッチ対称性を利用して、臨界点の様々な族を同定する。
ある種のスプリアスミニマの損失関数は$k-1$のようにゼロに崩壊するが、別の場合では損失関数は厳密な正の定数に収束する。
- 参考スコア(独自算出の注目度): 9.695960412426672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the optimization problem associated with fitting two-layer ReLU
networks with $k$ hidden neurons, where labels are assumed to be generated by a
(teacher) neural network. We leverage the rich symmetry exhibited by such
models to identify various families of critical points and express them as
power series in $k^{-\frac{1}{2}}$. These expressions are then used to derive
estimates for several related quantities which imply that not all spurious
minima are alike. In particular, we show that while the loss function at
certain types of spurious minima decays to zero like $k^{-1}$, in other cases
the loss converges to a strictly positive constant. The methods used depend on
symmetry, the geometry of group actions, bifurcation, and Artin's implicit
function theorem.
- Abstract(参考訳): 我々は,2層reluネットワークを,(教師)ニューラルネットワークによってラベルが生成されると仮定した,k$隠れニューロンに適合させる最適化問題を考える。
そのようなモデルで示されるリッチ対称性を利用して、臨界点の様々な族を特定し、それらを$k^{-\frac{1}{2}}$の級数として表現する。
これらの表現は、いくつかの関連する量の見積もりを導出するために使われ、全ての散発的なミニマが似ているわけではないことを示している。
特に、ある種のスプリアスミニマの損失関数は、$k^{-1}$のようにゼロに崩壊するが、他の場合では、損失関数は厳密に正の定数に収束する。
用いられる方法は対称性、群作用の幾何学、分岐、アルティンの暗黙の関数定理に依存する。
関連論文リスト
- A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Hidden Minima in Two-Layer ReLU Networks [7.23389716633927]
最近、$d$あたりの最小値を与える2種類のスプリアスミニマの無限族が発見された。
最初の型に属するミニマの損失は、$d$が増加するにつれて0に収束する。
第2の型では、損失はゼロから切り離されたままである。
論文 参考訳(メタデータ) (2023-12-28T04:27:15Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - Annihilation of Spurious Minima in Two-Layer ReLU Networks [9.695960412426672]
正方形損失に対する2層ReLUニューラルネットワークの適合に関する最適化問題について検討する。
ニューロンを追加することで、対称的な刺激性のミニマをサドルに変えることができる。
また、損失関数の対称性構造から生じるある種の部分空間における降下方向の存在を証明した。
論文 参考訳(メタデータ) (2022-10-12T11:04:21Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Analytic Study of Families of Spurious Minima in Two-Layer ReLU Neural
Networks [15.711517003382484]
ヘッセンスペクトルは、$d$で成長する$Theta(d)$固有値を除いて、正近傍に集中していることが示される。
これにより、分岐理論の強力な道具を用いてミニマの作成と消滅が可能となる。
論文 参考訳(メタデータ) (2021-07-21T22:05:48Z) - Geometry of the Loss Landscape in Overparameterized Neural Networks:
Symmetries and Invariances [9.390008801320024]
それぞれに1つの余分なニューロンを加えると、以前の離散ミニマを1つの多様体に接続するのに十分であることを示す。
対称性によって誘導される臨界部分空間の数が、大域ミニマ多様体を構成するアフィン部分空間の数を支配していることを示す。
論文 参考訳(メタデータ) (2021-05-25T21:19:07Z) - Deep neural network approximation of analytic functions [91.3755431537592]
ニューラルネットワークの空間に エントロピーバウンド 片方向の線形活性化関数を持つ
我々は、ペナル化深部ニューラルネットワーク推定器の予測誤差に対するオラクルの不等式を導出する。
論文 参考訳(メタデータ) (2021-04-05T18:02:04Z) - Analytic Characterization of the Hessian in Shallow ReLU Models: A Tale
of Symmetry [9.695960412426672]
我々は,スプリアスミニマの様々な家系でヘッセンを解析的に特徴付ける。
特に、$dge k$ 標準ガウス入力について、 (a) ヘッセンの $dk$ 固有値の内、$dk - O(d)$ が 0 に近づき、 (b) $Omega(d)$ 固有値は $k$ で線型的に増加することを証明している。
論文 参考訳(メタデータ) (2020-08-04T20:08:35Z) - Semiparametric Nonlinear Bipartite Graph Representation Learning with
Provable Guarantees [106.91654068632882]
半パラメトリック指数族分布におけるパラメータの統計的推定問題として、両部グラフを考察し、その表現学習問題を定式化する。
提案手法は, 地中真理付近で強い凸性を示すため, 勾配降下法が線形収束率を達成できることを示す。
我々の推定器は指数族内の任意のモデル誤特定に対して頑健であり、広範な実験で検証されている。
論文 参考訳(メタデータ) (2020-03-02T16:40:36Z) - Complexity of Finding Stationary Points of Nonsmooth Nonconvex Functions [84.49087114959872]
非滑らかで非滑らかな関数の定常点を見つけるための最初の非漸近解析を提供する。
特に、アダマール半微分可能函数(おそらく非滑らか関数の最大のクラス)について研究する。
論文 参考訳(メタデータ) (2020-02-10T23:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。