論文の概要: Analytic Characterization of the Hessian in Shallow ReLU Models: A Tale
of Symmetry
- arxiv url: http://arxiv.org/abs/2008.01805v2
- Date: Thu, 15 Oct 2020 22:53:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 23:57:04.915328
- Title: Analytic Characterization of the Hessian in Shallow ReLU Models: A Tale
of Symmetry
- Title(参考訳): 浅いreluモデルにおけるヘッシアンの解析的特徴:対称性の物語
- Authors: Yossi Arjevani, Michael Field
- Abstract要約: 我々は,スプリアスミニマの様々な家系でヘッセンを解析的に特徴付ける。
特に、$dge k$ 標準ガウス入力について、 (a) ヘッセンの $dk$ 固有値の内、$dk - O(d)$ が 0 に近づき、 (b) $Omega(d)$ 固有値は $k$ で線型的に増加することを証明している。
- 参考スコア(独自算出の注目度): 9.695960412426672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the optimization problem associated with fitting two-layers ReLU
networks with respect to the squared loss, where labels are generated by a
target network. We leverage the rich symmetry structure to analytically
characterize the Hessian at various families of spurious minima in the natural
regime where the number of inputs $d$ and the number of hidden neurons $k$ is
finite. In particular, we prove that for $d\ge k$ standard Gaussian inputs: (a)
of the $dk$ eigenvalues of the Hessian, $dk - O(d)$ concentrate near zero, (b)
$\Omega(d)$ of the eigenvalues grow linearly with $k$. Although this phenomenon
of extremely skewed spectrum has been observed many times before, to our
knowledge, this is the first time it has been established {rigorously}. Our
analytic approach uses techniques, new to the field, from symmetry breaking and
representation theory, and carries important implications for our ability to
argue about statistical generalization through local curvature.
- Abstract(参考訳): ターゲットネットワークによってラベルが生成される正方形損失に対して、2層ReLUネットワークの適合に伴う最適化問題を考察する。
我々はリッチ対称性構造を利用して、入力数$d$と隠されたニューロン数$k$が有限である自然状態において、スプリアスミニマの様々な族におけるヘシアンを解析的に特徴づける。
特に、$d\ge k$ 標準ガウス入力に対して、 (a) ヘッセンの $dk$ 固有値の$dk - O(d)$ が 0 に近づき、 (b) $\Omega(d)$ 固有値の$k$ が線型的に増加することを証明している。
この非常に歪んだスペクトルの現象は以前にも何度も観測されてきたが、我々の知る限りではそれが確立されたのはこれが初めてである。
我々の分析的アプローチは、対称性の破れと表現論から新しい手法を使用し、局所曲率による統計的一般化について議論する能力に重要な意味を持つ。
関連論文リスト
- Exact Community Recovery (under Side Information): Optimality of Spectral Algorithms [1.4732811715354452]
一般の2つのコミュニティブロックモデルにおいて,コミュニティの正確な回復の問題について検討する。
正確な回復の情報理論的限界に対する側情報の影響を統一的に分析する。
論文 参考訳(メタデータ) (2024-06-18T21:48:59Z) - Information-Theoretic Thresholds for Planted Dense Cycles [52.076657911275525]
本研究では,社会科学や生物科学においてユビキタスな小世界ネットワークのランダムグラフモデルについて検討する。
植え込み高密度サイクルの検出と回復の両面において、情報理論の閾値を$n$, $tau$、エッジワイド信号対雑音比$lambda$で特徴づける。
論文 参考訳(メタデータ) (2024-02-01T03:39:01Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - Analytic Study of Families of Spurious Minima in Two-Layer ReLU Neural
Networks [15.711517003382484]
ヘッセンスペクトルは、$d$で成長する$Theta(d)$固有値を除いて、正近傍に集中していることが示される。
これにより、分岐理論の強力な道具を用いてミニマの作成と消滅が可能となる。
論文 参考訳(メタデータ) (2021-07-21T22:05:48Z) - Exponential ReLU Neural Network Approximation Rates for Point and Edge
Singularities [0.0]
ポリトープ領域の重み付け解析関数クラスに対して,安定なReLUニューラルネット(ReLU NN)を$H1(Omega)$で表現する。
指数近似速度は、直線面を持つリプシッツ多角形の空間次元$d = 2$、平面面を持つフィチェラ型多面体領域における空間次元$d=3$で表される。
論文 参考訳(メタデータ) (2020-10-23T07:44:32Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z) - The Generalized Lasso with Nonlinear Observations and Generative Priors [63.541900026673055]
我々は、幅広い測定モデルで満たされるガウス下測度を仮定する。
この結果から, 局所埋込特性を仮定して, 均一回復保証まで拡張できることが示唆された。
論文 参考訳(メタデータ) (2020-06-22T16:43:35Z) - Symmetry & critical points for a model shallow neural network [9.695960412426672]
我々は、2層ReLUネットワークに$kの隠れニューロンを組み込む際の最適化問題を考察する。
このようなモデルで示されるリッチ対称性を利用して、臨界点の様々な族を同定する。
ある種のスプリアスミニマの損失関数は$k-1$のようにゼロに崩壊するが、別の場合では損失関数は厳密な正の定数に収束する。
論文 参考訳(メタデータ) (2020-03-23T23:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。