論文の概要: From Zero to Hero: How local curvature at artless initial conditions leads away from bad minima
- arxiv url: http://arxiv.org/abs/2403.02418v2
- Date: Mon, 23 Sep 2024 09:00:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-09 04:21:34.297408
- Title: From Zero to Hero: How local curvature at artless initial conditions leads away from bad minima
- Title(参考訳): ゼロからヒーローへ:非アートな初期条件での局所曲率がいかに悪質なミニマから遠ざかるか
- Authors: Tony Bonnaire, Giulio Biroli, Chiara Cammarota,
- Abstract要約: 複雑な損失景観のケーススタディとして,位相探索問題に焦点をあてる。
スペクトルの遷移が起こり、方向が失われ、システムが悪いミニマに閉じ込められることを示す。
我々の分析は、有限次元の勾配勾配勾配ダイナミクスを促進する新しいメカニズムに光を当てている。
- 参考スコア(独自算出の注目度): 9.50832466973301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We provide an analytical study of the evolution of the Hessian during gradient descent dynamics, and relate a transition in its spectral properties to the ability of finding good minima. We focus on the phase retrieval problem as a case study for complex loss landscapes. We first characterize the high-dimensional limit where both the number $M$ and the dimension $N$ of the data are going to infinity at fixed signal-to-noise ratio $\alpha = M/N$. For small $\alpha$, the Hessian is uninformative with respect to the signal. For $\alpha$ larger than a critical value, the Hessian displays at short-times a downward direction pointing towards good minima. While descending, a transition in the spectrum takes place: the direction is lost and the system gets trapped in bad minima. Hence, the local landscape is benign and informative at first, before gradient descent brings the system into a uninformative maze. Through both theoretical analysis and numerical experiments, we show that this dynamical transition plays a crucial role for finite (even very large) $N$: it allows the system to recover the signal well before the algorithmic threshold corresponding to the $N\rightarrow\infty$ limit. Our analysis sheds light on this new mechanism that facilitates gradient descent dynamics in finite dimensions, and highlights the importance of a good initialization based on spectral properties for optimization in complex high-dimensional landscapes.
- Abstract(参考訳): 本研究では,勾配降下ダイナミクスにおけるヘッセンの進化に関する解析的研究を行い,スペクトル特性の遷移と良好なミニマの発見能力について考察する。
複雑な損失景観のケーススタディとして,位相探索問題に焦点をあてる。
まず、M$の値とN$の値の両方が固定信号対雑音比$\alpha = M/N$で無限大となるような高次元の極限を特徴づける。
小さい$\alpha$の場合、Hessian は信号に関して非形式的である。
臨界値よりも大きい$\alphaの場合、Hessianは短い時間に、良いミニマを指して下向きに表示する。
降下中、スペクトルの遷移が起こり、方向が失われ、システムが悪いミニマに閉じ込められる。
したがって、局所的な風景は最初は良心的かつ情報的であり、勾配降下はシステムを非形式的迷路へと導く。
理論解析と数値実験の両方を通して、この力学遷移が有限(たとえ非常に大きいとしても)$N$に対して重要な役割を果たすことを示した。
解析は, 有限次元における勾配勾配勾配のダイナミクスを促進する新しいメカニズムに光を当て, 複雑な高次元景観におけるスペクトル特性に基づく優れた初期化の重要性を強調した。
関連論文リスト
- The global convergence time of stochastic gradient descent in non-convex landscapes: Sharp estimates via large deviations [29.642830843568525]
一般の非損失関数の大域的最小値に到達するのに、降下勾配に要する時間について検討する。
ニューラルネットワークへの応用により、我々は局所ミニマを用いた損失関数の解析の一連の改良と拡張を提供する。
論文 参考訳(メタデータ) (2025-03-20T17:54:04Z) - On the Saturation Effects of Spectral Algorithms in Large Dimensions [14.63552944833659]
本研究の主な焦点は,大規模なスペクトルアルゴリズムの飽和効果を大規模に検討することである。
飽和効果は, 原条件$s>tau$で, 固定次元設定では$s>2tau$で発生する。
論文 参考訳(メタデータ) (2025-03-01T14:21:38Z) - Can Stability be Detrimental? Better Generalization through Gradient Descent Instabilities [14.741581246137404]
本研究では,大きな学習率によって引き起こされる不安定さが,損失景観の平坦な領域へモデルパラメータを移動させることを示す。
最新のベンチマークデータセットでは,これらが優れた一般化性能をもたらすことが判明した。
論文 参考訳(メタデータ) (2024-12-23T14:32:53Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Magnitude and Angle Dynamics in Training Single ReLU Neurons [45.886537625951256]
勾配フロー $w(t)$ を等級 $w(t)$ と角 $phi(t):= pi -theta(t) $ に分解する。
小型初期化は深い単一ReLUニューロンに対して緩やかな収束速度を誘導する。
論文 参考訳(メタデータ) (2022-09-27T13:58:46Z) - Analytic Study of Families of Spurious Minima in Two-Layer ReLU Neural
Networks [15.711517003382484]
ヘッセンスペクトルは、$d$で成長する$Theta(d)$固有値を除いて、正近傍に集中していることが示される。
これにより、分岐理論の強力な道具を用いてミニマの作成と消滅が可能となる。
論文 参考訳(メタデータ) (2021-07-21T22:05:48Z) - Vanishing Curvature and the Power of Adaptive Methods in Randomly
Initialized Deep Networks [30.467121747150816]
本稿では,ニューラルネットワークの深部で一般的に発生する,いわゆる消滅勾配現象を再考する。
ネットワーク幅が O(depth) 未満のスケールでは, 消失勾配を回避できないことを示す。
論文 参考訳(メタデータ) (2021-06-07T16:29:59Z) - Implicit bias of deep linear networks in the large learning rate phase [15.846533303963229]
大規模学習率体系におけるロジスティック損失を用いた二項分類のための深い線形ネットワークの暗黙バイアス効果を特徴付ける。
データの分離条件により、勾配降下反復はカタパルト相においてより平坦な最小値に収束すると主張する。
論文 参考訳(メタデータ) (2020-11-25T06:50:30Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Analytic Characterization of the Hessian in Shallow ReLU Models: A Tale
of Symmetry [9.695960412426672]
我々は,スプリアスミニマの様々な家系でヘッセンを解析的に特徴付ける。
特に、$dge k$ 標準ガウス入力について、 (a) ヘッセンの $dk$ 固有値の内、$dk - O(d)$ が 0 に近づき、 (b) $Omega(d)$ 固有値は $k$ で線型的に増加することを証明している。
論文 参考訳(メタデータ) (2020-08-04T20:08:35Z) - Implicit Bias in Deep Linear Classification: Initialization Scale vs
Training Accuracy [71.25689267025244]
移行がスケールとトレーニング損失の最小化の関係によってどのように制御されるかを示す。
以上の結果から,勾配降下の限界挙動は,ばかげた訓練精度でのみ引き起こされることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T23:49:53Z) - Complex Dynamics in Simple Neural Networks: Understanding Gradient Flow
in Phase Retrieval [31.993312235435916]
勾配に基づくアルゴリズムは、スパイラルなアルゴリズムに閉じ込められることなく、優れたミニマを見つけることができることを示す。
数値実験により、この状態では勾配流アルゴリズムは捕捉されず、不安定な方向に沿った臨界点から遠ざかって、大域的な最小値を見つけることに成功した。
論文 参考訳(メタデータ) (2020-06-12T08:21:12Z) - Analytic Signal Phase in $N-D$ by Linear Symmetry Tensor--fingerprint
modeling [69.35569554213679]
解析信号位相とその勾配は2-D$以上の不連続性を持つことを示す。
この欠点は深刻なアーティファクトをもたらす可能性があるが、問題は1-D $シグナルには存在しない。
本稿では,複数のGaborフィルタに頼って線形シンメトリー位相を用いることを提案する。
論文 参考訳(メタデータ) (2020-05-16T21:17:26Z) - Continuous-time quantum walks in the presence of a quadratic
perturbation [55.41644538483948]
連続時間量子ウォークの特性を、$mathcalH=L + lambda L2$という形のハミルトン群で解決する。
低/高接続性および/または対称性を持つパラダイムモデルであるため、サイクル、完全、およびスターグラフを考える。
論文 参考訳(メタデータ) (2020-05-13T14:53:36Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。