論文の概要: Hidden Minima in Two-Layer ReLU Networks
- arxiv url: http://arxiv.org/abs/2312.16819v1
- Date: Thu, 28 Dec 2023 04:27:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 17:48:32.969315
- Title: Hidden Minima in Two-Layer ReLU Networks
- Title(参考訳): 2層ReLUネットワークにおける隠れミニマ
- Authors: Yossi Arjevani
- Abstract要約: 無限族の最小値が$d$と$k$の2つのカテゴリが最近発見された。
第1の圏に属するミニマの損失は、$d$が増加するにつれて0に収束する。
第2のカテゴリでは、損失はゼロから切り離されたままである。
- 参考スコア(独自算出の注目度): 7.23389716633927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The optimization problem associated to fitting two-layer ReLU networks having
$d$~inputs, $k$~neurons, and labels generated by a target network, is
considered. Two categories of infinite families of minima, giving one minimum
per $d$ and $k$, were recently found. The loss at minima belonging to the first
category converges to zero as $d$ increases. In the second category, the loss
remains bounded away from zero. That being so, how may one avoid minima
belonging to the latter category? Fortunately, such minima are never detected
by standard optimization methods. Motivated by questions concerning the nature
of this phenomenon, we develop methods to study distinctive analytic properties
of hidden minima.
By existing analyses, the Hessian spectrum of both categories agree modulus
$O(d^{-1/2})$-terms -- not promising. Thus, rather, our investigation proceeds
by studying curves along which the loss is minimized or maximized, referred to
as tangency arcs. We prove that pure, seemingly remote, group
representation-theoretic considerations concerning the arrangement of subspaces
invariant to the action of subgroups of $S_d$, the symmetry group over $d$
symbols, relative to ones fixed by the action yield a precise description of
all finitely many admissible types of tangency arcs. The general results
applied for the loss function reveal that arcs emanating from hidden minima
differ, characteristically, by their structure and symmetry, precisely on
account of the $O(d^{-1/2})$-eigenvalue terms absent in previous work,
indicating the subtly of the analysis. The theoretical results, stated and
proved for o-minimal structures, show that the set comprising all tangency arcs
is topologically sufficiently tame, permitting a numerical construction of
tangency arcs, and ultimately, a comparison of how minima from both categories
are positioned relative to adjacent critical points.
- Abstract(参考訳): ターゲットネットワークで生成された$d$~inputs,$k$~neurons,ラベルを持つ2層ReLUネットワークの適合に関する最適化問題を考察する。
無限族の最小値が$d$と$k$の2つのカテゴリが最近発見された。
最初のカテゴリに属するminimaの損失は$d$が増加するにつれてゼロに収束する。
第2のカテゴリでは、損失はゼロから切り離されている。
つまり、後者のカテゴリに属するミニマを避けるにはどうすればよいのか?
幸いなことに、このようなミニマは標準最適化手法では検出されない。
この現象の性質に関する疑問に動機づけられ,隠れたミニマの特徴的な解析的性質を研究する手法を開発した。
既存の解析により、両方の圏のヘッセンスペクトルは、有望ではない modulus $O(d^{-1/2})$-terms に一致する。
したがって, むしろ, 損失が最小化され, 最大化される曲線を, 接弧と呼ぶことにより, 調査が進められる。
我々は、S_d$ の部分群の作用に不変な部分空間の配置に関する純粋で、一見遠隔の群表現論的な考察が、作用によって固定された記号に対して$d$ のシンボル上の対称性群であることを示す。
損失関数に適用される一般的な結果は、その構造と対称性によって特徴的に異なることを示し、前の研究に存在しない$o(d^{-1/2})$-eigenvalue項を考慮し、解析の下位値を示す。
o-極小構造について述べ、証明された理論的結果は、全ての接弧からなる集合は位相的に十分に微妙であり、接弧の数値的構成が可能であり、最終的に両圏の極小が隣接する臨界点に対してどのように配置されているかの比較である。
関連論文リスト
- A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Adam-like Algorithm with Smooth Clipping Attains Global Minima: Analysis
Based on Ergodicity of Functional SDEs [0.0]
我々は,グローバル化された非-1損失関数を切断したAdam型アルゴリズムが正規化された非-1エラー形式を最小化することを示す。
また、スムーズな群のエルゴード理論を適用して、逆温度と時間を学ぶためのアプローチを研究する。
論文 参考訳(メタデータ) (2023-11-29T14:38:59Z) - Detection-Recovery Gap for Planted Dense Cycles [72.4451045270967]
期待帯域幅$n tau$とエッジ密度$p$をエルドホス=R'enyiグラフ$G(n,q)$に植え込むモデルを考える。
低次アルゴリズムのクラスにおいて、関連する検出および回復問題に対する計算しきい値を特徴付ける。
論文 参考訳(メタデータ) (2023-02-13T22:51:07Z) - Causal Bandits for Linear Structural Equation Models [58.2875460517691]
本稿では,因果図形モデルにおける最適な介入順序を設計する問題について検討する。
グラフの構造は知られており、ノードは$N$である。
頻繁性(UCBベース)とベイズ的設定に2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-26T16:21:31Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Origins of Low-dimensional Adversarial Perturbations [17.17170592140042]
分類における低次元対向摂動現象について検討した。
目標は、分類器を騙して、指定されたクラスからの入力のゼロではない割合でその決定を反転させることである。
任意の部分空間のばかばかし率の低いバウンドを計算する。
論文 参考訳(メタデータ) (2022-03-25T17:02:49Z) - Analytic Study of Families of Spurious Minima in Two-Layer ReLU Neural
Networks [15.711517003382484]
ヘッセンスペクトルは、$d$で成長する$Theta(d)$固有値を除いて、正近傍に集中していることが示される。
これにより、分岐理論の強力な道具を用いてミニマの作成と消滅が可能となる。
論文 参考訳(メタデータ) (2021-07-21T22:05:48Z) - Lattice partition recovery with dyadic CART [79.96359947166592]
我々は、$d$次元格子上の加法ガウス雑音によって破損したピースワイド定値信号について検討する。
この形式のデータは、多くのアプリケーションで自然に発生し、統計処理や信号処理の文献において、信号の検出やテスト、ノイズの除去、推定といったタスクが広く研究されている。
本稿では,未知の信号の一貫性領域によって誘導される格子の分割を推定する,分割回復の問題について考察する。
我々は、DCARTベースの手順が、下位分割を$sigma2 k*の順序で一貫して推定することを証明した。
論文 参考訳(メタデータ) (2021-05-27T23:41:01Z) - Agnostic Learning of Halfspaces with Gradient Descent via Soft Margins [92.7662890047311]
勾配降下は、分類誤差$tilde O(mathsfOPT1/2) + varepsilon$ in $mathrmpoly(d,1/varepsilon)$ time and sample complexity.
論文 参考訳(メタデータ) (2020-10-01T16:48:33Z) - Analytic Characterization of the Hessian in Shallow ReLU Models: A Tale
of Symmetry [9.695960412426672]
我々は,スプリアスミニマの様々な家系でヘッセンを解析的に特徴付ける。
特に、$dge k$ 標準ガウス入力について、 (a) ヘッセンの $dk$ 固有値の内、$dk - O(d)$ が 0 に近づき、 (b) $Omega(d)$ 固有値は $k$ で線型的に増加することを証明している。
論文 参考訳(メタデータ) (2020-08-04T20:08:35Z) - Symmetry & critical points for a model shallow neural network [9.695960412426672]
我々は、2層ReLUネットワークに$kの隠れニューロンを組み込む際の最適化問題を考察する。
このようなモデルで示されるリッチ対称性を利用して、臨界点の様々な族を同定する。
ある種のスプリアスミニマの損失関数は$k-1$のようにゼロに崩壊するが、別の場合では損失関数は厳密な正の定数に収束する。
論文 参考訳(メタデータ) (2020-03-23T23:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。