論文の概要: The critical locus of overparameterized neural networks
- arxiv url: http://arxiv.org/abs/2005.04210v2
- Date: Mon, 18 May 2020 01:07:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 11:32:35.950214
- Title: The critical locus of overparameterized neural networks
- Title(参考訳): 過パラメータニューラルネットワークの臨界点
- Authors: Y. Cooper
- Abstract要約: 我々は、$L$の臨界軌跡のいくつかの成分を特定し、それらの幾何学的性質を研究する。
深さ$ell geq 4$のネットワークでは、スター軌跡をS$と呼ぶ臨界点の軌跡を同定する。
深くて非常に広いネットワークでは、ヘッセンのゼロ固有空間の成長速度を、すべての臨界点の異なる族で比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many aspects of the geometry of loss functions in deep learning remain
mysterious. In this paper, we work toward a better understanding of the
geometry of the loss function $L$ of overparameterized feedforward neural
networks. In this setting, we identify several components of the critical locus
of $L$ and study their geometric properties. For networks of depth $\ell \geq
4$, we identify a locus of critical points we call the star locus $S$. Within
$S$ we identify a positive-dimensional sublocus $C$ with the property that for
$p \in C$, $p$ is a degenerate critical point, and no existing theoretical
result guarantees that gradient descent will not converge to $p$. For very wide
networks, we build on earlier work and show that all critical points of $L$ are
degenerate, and give lower bounds on the number of zero eigenvalues of the
Hessian at each critical point. For networks that are both deep and very wide,
we compare the growth rates of the zero eigenspaces of the Hessian at all the
different families of critical points that we identify. The results in this
paper provide a starting point to a more quantitative understanding of the
properties of various components of the critical locus of $L$.
- Abstract(参考訳): 深層学習における損失関数の幾何学の多くの側面は謎のままである。
本稿では、過パラメータ化されたフィードフォワードニューラルネットワークの損失関数$L$について、よりよく理解するために研究する。
この設定では、$L$の臨界軌跡のいくつかの成分を特定し、それらの幾何学的性質を研究する。
深度$\ell \geq 4$ のネットワークでは、スター軌跡 $S$ と呼ぶ臨界点の軌跡を特定する。
S$ 内では、$p \in C$ に対して$p$ は退化臨界点であり、既存の理論的な結果は、勾配降下が$p$ に収束しないことを保証しないという性質を持つ正次元部分軌跡 $C$ を同定する。
非常に広いネットワークでは、初期の研究に基づいて、$l$の全ての臨界点が縮退していることを示し、各臨界点におけるヘッシアンのゼロ固有値の数に下限を与える。
深いネットワークと非常に広いネットワークでは、ヘシアンのゼロ固有空間の成長速度を、我々が識別する臨界点のすべての異なるファミリーで比較する。
本研究の結果は, 臨界軌跡の様々な成分の性質についてより定量的に理解するための出発点となる。
関連論文リスト
- Bayesian Inference with Deep Weakly Nonlinear Networks [57.95116787699412]
我々は,完全連結ニューラルネットワークによるベイズ推定が解けることを示す物理レベルの厳密さを示す。
我々はモデルエビデンスを計算し、任意の温度で1/N$で任意の順序に後続する手法を提供する。
論文 参考訳(メタデータ) (2024-05-26T17:08:04Z) - Information-Theoretic Thresholds for Planted Dense Cycles [52.076657911275525]
本研究では,社会科学や生物科学においてユビキタスな小世界ネットワークのランダムグラフモデルについて検討する。
植え込み高密度サイクルの検出と回復の両面において、情報理論の閾値を$n$, $tau$、エッジワイド信号対雑音比$lambda$で特徴づける。
論文 参考訳(メタデータ) (2024-02-01T03:39:01Z) - Complex Critical Points of Deep Linear Neural Networks [0.0]
単一のデータポイントでトレーニングされた単一の隠れレイヤを持つネットワークでは、損失関数の複雑な臨界点の数に改善されたバウンダリを与える。
任意の数の隠蔽層において、座標がゼロの複素臨界点が特定のパターンに出現し、1つの隠蔽層を持つネットワークに対して完全に分類されることを示す。
論文 参考訳(メタデータ) (2023-01-30T04:16:49Z) - Understanding Deep Neural Function Approximation in Reinforcement
Learning via $\epsilon$-Greedy Exploration [53.90873926758026]
本稿では、強化学習(RL)における深部神経機能近似の理論的研究について述べる。
我々は、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$epsilon$-greedy探索により、バリューベースのアルゴリズムに焦点を当てる。
我々の解析は、ある平均測度$mu$の上の$L2(mathrmdmu)$-integrable空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。
論文 参考訳(メタデータ) (2022-09-15T15:42:47Z) - Analytic Study of Families of Spurious Minima in Two-Layer ReLU Neural
Networks [15.711517003382484]
ヘッセンスペクトルは、$d$で成長する$Theta(d)$固有値を除いて、正近傍に集中していることが示される。
これにより、分岐理論の強力な道具を用いてミニマの作成と消滅が可能となる。
論文 参考訳(メタデータ) (2021-07-21T22:05:48Z) - Deep neural network approximation of analytic functions [91.3755431537592]
ニューラルネットワークの空間に エントロピーバウンド 片方向の線形活性化関数を持つ
我々は、ペナル化深部ニューラルネットワーク推定器の予測誤差に対するオラクルの不等式を導出する。
論文 参考訳(メタデータ) (2021-04-05T18:02:04Z) - A simple geometric proof for the benefit of depth in ReLU networks [57.815699322370826]
本論文では, 多層フィードフォワードネットワークにおける深度の利点を, 整流活性化(深度分離)により証明する。
我々は、線形深さ($m$)と小さな定数幅($leq 4$)を持つ具体的なニューラルネットワークを示し、問題をゼロエラーで分類する。
論文 参考訳(メタデータ) (2021-01-18T15:40:27Z) - On the emergence of tetrahedral symmetry in the final and penultimate
layers of neural network classifiers [9.975163460952045]
分類器の最終的な出力である$h$ であっても、$h$ が浅いネットワークである場合、$c_i$ のクラスからのデータサンプルは均一ではない。
本研究は,高表現性深層ニューラルネットワークの玩具モデルにおいて,この観察を解析的に説明する。
論文 参考訳(メタデータ) (2020-12-10T02:32:52Z) - A deep network construction that adapts to intrinsic dimensionality
beyond the domain [79.23797234241471]
本稿では,ReLUを活性化したディープネットワークを用いて,2層合成の近似を$f(x) = g(phi(x))$で検討する。
例えば、低次元埋め込み部分多様体への射影と、低次元集合の集合への距離である。
論文 参考訳(メタデータ) (2020-08-06T09:50:29Z) - Analytic Characterization of the Hessian in Shallow ReLU Models: A Tale
of Symmetry [9.695960412426672]
我々は,スプリアスミニマの様々な家系でヘッセンを解析的に特徴付ける。
特に、$dge k$ 標準ガウス入力について、 (a) ヘッセンの $dk$ 固有値の内、$dk - O(d)$ が 0 に近づき、 (b) $Omega(d)$ 固有値は $k$ で線型的に増加することを証明している。
論文 参考訳(メタデータ) (2020-08-04T20:08:35Z) - Symmetry & critical points for a model shallow neural network [9.695960412426672]
我々は、2層ReLUネットワークに$kの隠れニューロンを組み込む際の最適化問題を考察する。
このようなモデルで示されるリッチ対称性を利用して、臨界点の様々な族を同定する。
ある種のスプリアスミニマの損失関数は$k-1$のようにゼロに崩壊するが、別の場合では損失関数は厳密な正の定数に収束する。
論文 参考訳(メタデータ) (2020-03-23T23:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。