論文の概要: From Zero to Hero: How local curvature at artless initial conditions
leads away from bad minima
- arxiv url: http://arxiv.org/abs/2403.02418v1
- Date: Mon, 4 Mar 2024 19:12:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 17:07:21.746715
- Title: From Zero to Hero: How local curvature at artless initial conditions
leads away from bad minima
- Title(参考訳): ゼロからヒーローへ:アートのない初期条件での局所曲率がいかに悪いミニマから遠ざかるか
- Authors: Tony Bonnaire, Giulio Biroli, Chiara Cammarota
- Abstract要約: 非次元および高次元の設定における勾配降下の最適化力学について検討する。
位相探索における勾配降下は, 異常点に到達する前に, 良好な最小点に向かって降下することで達成されることを示す。
- 参考スコア(独自算出の注目度): 10.686404053255366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the optimization dynamics of gradient descent in a non-convex
and high-dimensional setting, with a focus on the phase retrieval problem as a
case study for complex loss landscapes. We first study the high-dimensional
limit where both the number $M$ and the dimension $N$ of the data are going to
infinity at fixed signal-to-noise ratio $\alpha = M/N$. By analyzing how the
local curvature changes during optimization, we uncover that for intermediate
$\alpha$, the Hessian displays a downward direction pointing towards good
minima in the first regime of the descent, before being trapped in bad minima
at the end. Hence, the local landscape is benign and informative at first,
before gradient descent brings the system into a uninformative maze. The
transition between the two regimes is associated to a BBP-type threshold in the
time-dependent Hessian. Through both theoretical analysis and numerical
experiments, we show that in practical cases, i.e. for finite but even very
large $N$, successful optimization via gradient descent in phase retrieval is
achieved by falling towards the good minima before reaching the bad ones. This
mechanism explains why successful recovery is obtained well before the
algorithmic transition corresponding to the high-dimensional limit.
Technically, this is associated to strong logarithmic corrections of the
algorithmic transition at large $N$ with respect to the one expected in the
$N\to\infty$ limit. Our analysis sheds light on such a new mechanism that
facilitate gradient descent dynamics in finite large dimensions, also
highlighting the importance of good initialization of spectral properties for
optimization in complex high-dimensional landscapes.
- Abstract(参考訳): 非凸高次元環境における勾配降下の最適化ダイナミクスについて検討し、複雑な損失景観を例として位相検索問題に着目した。
まず、M$の値とN$の値の両方が固定信号対雑音比$\alpha = M/N$で無限大となるような高次元極限について検討する。
最適化中に局所曲率がどのように変化するかを分析することで、中間$\alpha$に対して、ヘッセンは降下の最初の状態において良いミニマを指す下向きの方向を示し、最後に悪いミニマに閉じ込められる。
したがって、局所的な風景は最初は良心的かつ情報的であり、勾配降下はシステムを非形式的迷路へと導く。
2つのレジーム間の遷移は時間依存ヘッセンのbbp型閾値と関連している。
理論的解析と数値実験の両方を通して、有限だが非常に大きな$N$の場合、位相探索における勾配勾配による最適化は、悪い値に達する前に良い最小値に落ちることによって達成されることを示す。
このメカニズムは、高次元の極限に対応するアルゴリズムの遷移の前に回復が成功した理由を説明する。
技術的には、これは大まかに$N$のアルゴリズム遷移の強い対数補正と、$N\to\infty$の極限で期待されるものに関連している。
我々の分析は、有限次元における勾配勾配勾配ダイナミクスを促進する新しいメカニズムに光を当て、複雑な高次元景観におけるスペクトル特性の優れた初期化の重要性を強調した。
関連論文リスト
- A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Magnitude and Angle Dynamics in Training Single ReLU Neurons [45.886537625951256]
勾配フロー $w(t)$ を等級 $w(t)$ と角 $phi(t):= pi -theta(t) $ に分解する。
小型初期化は深い単一ReLUニューロンに対して緩やかな収束速度を誘導する。
論文 参考訳(メタデータ) (2022-09-27T13:58:46Z) - Analytic Study of Families of Spurious Minima in Two-Layer ReLU Neural
Networks [15.711517003382484]
ヘッセンスペクトルは、$d$で成長する$Theta(d)$固有値を除いて、正近傍に集中していることが示される。
これにより、分岐理論の強力な道具を用いてミニマの作成と消滅が可能となる。
論文 参考訳(メタデータ) (2021-07-21T22:05:48Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Analytic Characterization of the Hessian in Shallow ReLU Models: A Tale
of Symmetry [9.695960412426672]
我々は,スプリアスミニマの様々な家系でヘッセンを解析的に特徴付ける。
特に、$dge k$ 標準ガウス入力について、 (a) ヘッセンの $dk$ 固有値の内、$dk - O(d)$ が 0 に近づき、 (b) $Omega(d)$ 固有値は $k$ で線型的に増加することを証明している。
論文 参考訳(メタデータ) (2020-08-04T20:08:35Z) - Implicit Bias in Deep Linear Classification: Initialization Scale vs
Training Accuracy [71.25689267025244]
移行がスケールとトレーニング損失の最小化の関係によってどのように制御されるかを示す。
以上の結果から,勾配降下の限界挙動は,ばかげた訓練精度でのみ引き起こされることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T23:49:53Z) - Complex Dynamics in Simple Neural Networks: Understanding Gradient Flow
in Phase Retrieval [31.993312235435916]
勾配に基づくアルゴリズムは、スパイラルなアルゴリズムに閉じ込められることなく、優れたミニマを見つけることができることを示す。
数値実験により、この状態では勾配流アルゴリズムは捕捉されず、不安定な方向に沿った臨界点から遠ざかって、大域的な最小値を見つけることに成功した。
論文 参考訳(メタデータ) (2020-06-12T08:21:12Z) - Analytic Signal Phase in $N-D$ by Linear Symmetry Tensor--fingerprint
modeling [69.35569554213679]
解析信号位相とその勾配は2-D$以上の不連続性を持つことを示す。
この欠点は深刻なアーティファクトをもたらす可能性があるが、問題は1-D $シグナルには存在しない。
本稿では,複数のGaborフィルタに頼って線形シンメトリー位相を用いることを提案する。
論文 参考訳(メタデータ) (2020-05-16T21:17:26Z) - Continuous-time quantum walks in the presence of a quadratic
perturbation [55.41644538483948]
連続時間量子ウォークの特性を、$mathcalH=L + lambda L2$という形のハミルトン群で解決する。
低/高接続性および/または対称性を持つパラダイムモデルであるため、サイクル、完全、およびスターグラフを考える。
論文 参考訳(メタデータ) (2020-05-13T14:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。