論文の概要: Hidden Minima in Two-Layer ReLU Networks
- arxiv url: http://arxiv.org/abs/2312.16819v2
- Date: Mon, 19 Feb 2024 17:33:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 03:57:44.845315
- Title: Hidden Minima in Two-Layer ReLU Networks
- Title(参考訳): 2層ReLUネットワークにおける隠れミニマ
- Authors: Yossi Arjevani
- Abstract要約: 最近、$d$あたりの最小値を与える2種類のスプリアスミニマの無限族が発見された。
最初の型に属するミニマの損失は、$d$が増加するにつれて0に収束する。
第2の型では、損失はゼロから切り離されたままである。
- 参考スコア(独自算出の注目度): 7.23389716633927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The optimization problem associated to fitting two-layer ReLU networks having
$d$~inputs, $k$~neurons, and labels generated by a target network, is
considered. Two types of infinite families of spurious minima, giving one
minimum per $d$, were recently found. The loss at minima belonging to the first
type converges to zero as $d$ increases. In the second type, the loss remains
bounded away from zero. That being so, how may one avoid minima belonging to
the latter type? Fortunately, such minima are never detected by standard
optimization methods. Motivated by questions concerning the nature of this
phenomenon, we develop methods to study distinctive analytic properties of
hidden minima.
By existing analyses, the Hessian spectrum of both types agree modulo
$O(d^{-1/2})$-terms -- not promising. Thus, rather, our investigation proceeds
by studying curves along which the loss is minimized or maximized, generally
referred to as tangency arcs. We prove that apparently far removed group
representation-theoretic considerations concerning the arrangement of subspaces
invariant to the action of subgroups of $S_d$, the symmetry group over $d$
symbols, relative to ones fixed by the action yield a precise description of
all finitely many admissible types of tangency arcs. The general results used
for the loss function reveal that arcs emanating from hidden minima differ,
characteristically, by their structure and symmetry, precisely on account of
the $O(d^{-1/2})$-eigenvalue terms absent in previous work, indicating in
particular the subtlety of the analysis. The theoretical results, stated and
proved for o-minimal structures, show that the set comprising all tangency arcs
is topologically sufficiently tame to enable a numerical construction of
tangency arcs and so compare how minima, both types, are positioned relative to
adjacent critical points.
- Abstract(参考訳): ターゲットネットワークで生成された$d$~inputs,$k$~neurons,ラベルを持つ2層ReLUネットワークの適合に関する最適化問題を考察する。
最近、$d$あたりの最小値を与える2種類のスプリアスミニマの無限族が発見された。
最初のタイプに属するminimaの損失は$d$が増加するにつれてゼロに収束する。
第2の型では、損失はゼロから切り離されている。
では、後者のタイプに属するミニマを避けるにはどうすればよいのか?
幸いなことに、このようなミニマは標準最適化手法では検出されない。
この現象の性質に関する疑問に動機づけられ,隠れたミニマの特徴的な解析的性質を研究する手法を開発した。
既存の解析によれば、両タイプのヘッセンスペクトルは、modulo $O(d^{-1/2})$-terms と一致している。
したがって, むしろ, 損失が最小化され, 最大化される曲線を考察し, 一般的には接弧と呼ばれる。
我々は、S_d$ の部分群の作用に不変な部分空間の配置に関する明らかに取り除かれた群表現-理論的考察が、作用によって固定された記号に対して$d$ のシンボル上の対称性群であることを示す。
損失関数の一般的な結果から、隠れた極小から生じる弧は、その構造と対称性によって、正確には前の仕事に存在しない$o(d^{-1/2})$-eigenvalue項を考慮して異なることが明らかとなり、特に分析の微妙な性質を示している。
o-最小構造について述べ、証明された理論的結果は、全ての接弧からなる集合が、接弧の数値的構成を可能にするために位相的に十分適していることを示している。
関連論文リスト
- A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Adam-like Algorithm with Smooth Clipping Attains Global Minima: Analysis
Based on Ergodicity of Functional SDEs [0.0]
我々は,グローバル化された非-1損失関数を切断したAdam型アルゴリズムが正規化された非-1エラー形式を最小化することを示す。
また、スムーズな群のエルゴード理論を適用して、逆温度と時間を学ぶためのアプローチを研究する。
論文 参考訳(メタデータ) (2023-11-29T14:38:59Z) - Detection-Recovery Gap for Planted Dense Cycles [72.4451045270967]
期待帯域幅$n tau$とエッジ密度$p$をエルドホス=R'enyiグラフ$G(n,q)$に植え込むモデルを考える。
低次アルゴリズムのクラスにおいて、関連する検出および回復問題に対する計算しきい値を特徴付ける。
論文 参考訳(メタデータ) (2023-02-13T22:51:07Z) - Causal Bandits for Linear Structural Equation Models [58.2875460517691]
本稿では,因果図形モデルにおける最適な介入順序を設計する問題について検討する。
グラフの構造は知られており、ノードは$N$である。
頻繁性(UCBベース)とベイズ的設定に2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-26T16:21:31Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Origins of Low-dimensional Adversarial Perturbations [17.17170592140042]
分類における低次元対向摂動現象について検討した。
目標は、分類器を騙して、指定されたクラスからの入力のゼロではない割合でその決定を反転させることである。
任意の部分空間のばかばかし率の低いバウンドを計算する。
論文 参考訳(メタデータ) (2022-03-25T17:02:49Z) - Analytic Study of Families of Spurious Minima in Two-Layer ReLU Neural
Networks [15.711517003382484]
ヘッセンスペクトルは、$d$で成長する$Theta(d)$固有値を除いて、正近傍に集中していることが示される。
これにより、分岐理論の強力な道具を用いてミニマの作成と消滅が可能となる。
論文 参考訳(メタデータ) (2021-07-21T22:05:48Z) - Lattice partition recovery with dyadic CART [79.96359947166592]
我々は、$d$次元格子上の加法ガウス雑音によって破損したピースワイド定値信号について検討する。
この形式のデータは、多くのアプリケーションで自然に発生し、統計処理や信号処理の文献において、信号の検出やテスト、ノイズの除去、推定といったタスクが広く研究されている。
本稿では,未知の信号の一貫性領域によって誘導される格子の分割を推定する,分割回復の問題について考察する。
我々は、DCARTベースの手順が、下位分割を$sigma2 k*の順序で一貫して推定することを証明した。
論文 参考訳(メタデータ) (2021-05-27T23:41:01Z) - Agnostic Learning of Halfspaces with Gradient Descent via Soft Margins [92.7662890047311]
勾配降下は、分類誤差$tilde O(mathsfOPT1/2) + varepsilon$ in $mathrmpoly(d,1/varepsilon)$ time and sample complexity.
論文 参考訳(メタデータ) (2020-10-01T16:48:33Z) - Analytic Characterization of the Hessian in Shallow ReLU Models: A Tale
of Symmetry [9.695960412426672]
我々は,スプリアスミニマの様々な家系でヘッセンを解析的に特徴付ける。
特に、$dge k$ 標準ガウス入力について、 (a) ヘッセンの $dk$ 固有値の内、$dk - O(d)$ が 0 に近づき、 (b) $Omega(d)$ 固有値は $k$ で線型的に増加することを証明している。
論文 参考訳(メタデータ) (2020-08-04T20:08:35Z) - Symmetry & critical points for a model shallow neural network [9.695960412426672]
我々は、2層ReLUネットワークに$kの隠れニューロンを組み込む際の最適化問題を考察する。
このようなモデルで示されるリッチ対称性を利用して、臨界点の様々な族を同定する。
ある種のスプリアスミニマの損失関数は$k-1$のようにゼロに崩壊するが、別の場合では損失関数は厳密な正の定数に収束する。
論文 参考訳(メタデータ) (2020-03-23T23:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。