Fugu-MT 論文翻訳(概要): From Zero to Hero: How local curvature at artless initial conditions leads away from bad minima

論文の概要: From Zero to Hero: How local curvature at artless initial conditions leads away from bad minima

arxiv url: http://arxiv.org/abs/2403.02418v1
Date: Mon, 4 Mar 2024 19:12:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 17:07:21.746715
Title: From Zero to Hero: How local curvature at artless initial conditions leads away from bad minima
Title（参考訳）: ゼロからヒーローへ:アートのない初期条件での局所曲率がいかに悪いミニマから遠ざかるか
Authors: Tony Bonnaire, Giulio Biroli, Chiara Cammarota
Abstract要約: 非次元および高次元の設定における勾配降下の最適化力学について検討する。位相探索における勾配降下は, 異常点に到達する前に, 良好な最小点に向かって降下することで達成されることを示す。
参考スコア（独自算出の注目度）: 10.686404053255366
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We investigate the optimization dynamics of gradient descent in a non-convex and high-dimensional setting, with a focus on the phase retrieval problem as a case study for complex loss landscapes. We first study the high-dimensional limit where both the number $M$ and the dimension $N$ of the data are going to infinity at fixed signal-to-noise ratio $\alpha = M/N$. By analyzing how the local curvature changes during optimization, we uncover that for intermediate $\alpha$, the Hessian displays a downward direction pointing towards good minima in the first regime of the descent, before being trapped in bad minima at the end. Hence, the local landscape is benign and informative at first, before gradient descent brings the system into a uninformative maze. The transition between the two regimes is associated to a BBP-type threshold in the time-dependent Hessian. Through both theoretical analysis and numerical experiments, we show that in practical cases, i.e. for finite but even very large $N$, successful optimization via gradient descent in phase retrieval is achieved by falling towards the good minima before reaching the bad ones. This mechanism explains why successful recovery is obtained well before the algorithmic transition corresponding to the high-dimensional limit. Technically, this is associated to strong logarithmic corrections of the algorithmic transition at large $N$ with respect to the one expected in the $N\to\infty$ limit. Our analysis sheds light on such a new mechanism that facilitate gradient descent dynamics in finite large dimensions, also highlighting the importance of good initialization of spectral properties for optimization in complex high-dimensional landscapes.
Abstract（参考訳）: 非凸高次元環境における勾配降下の最適化ダイナミクスについて検討し、複雑な損失景観を例として位相検索問題に着目した。まず、M$の値とN$の値の両方が固定信号対雑音比$\alpha = M/N$で無限大となるような高次元極限について検討する。最適化中に局所曲率がどのように変化するかを分析することで、中間$\alpha$に対して、ヘッセンは降下の最初の状態において良いミニマを指す下向きの方向を示し、最後に悪いミニマに閉じ込められる。したがって、局所的な風景は最初は良心的かつ情報的であり、勾配降下はシステムを非形式的迷路へと導く。 2つのレジーム間の遷移は時間依存ヘッセンのbbp型閾値と関連している。理論的解析と数値実験の両方を通して、有限だが非常に大きな$N$の場合、位相探索における勾配勾配による最適化は、悪い値に達する前に良い最小値に落ちることによって達成されることを示す。このメカニズムは、高次元の極限に対応するアルゴリズムの遷移の前に回復が成功した理由を説明する。技術的には、これは大まかに$N$のアルゴリズム遷移の強い対数補正と、$N\to\infty$の極限で期待されるものに関連している。我々の分析は、有限次元における勾配勾配勾配ダイナミクスを促進する新しいメカニズムに光を当て、複雑な高次元景観におけるスペクトル特性の優れた初期化の重要性を強調した。

関連論文リスト

The global convergence time of stochastic gradient descent in non-convex landscapes: Sharp estimates via large deviations [29.642830843568525]
一般の非損失関数の大域的最小値に到達するのに、降下勾配に要する時間について検討する。ニューラルネットワークへの応用により、我々は局所ミニマを用いた損失関数の解析の一連の改良と拡張を提供する。
論文参考訳（メタデータ） (2025-03-20T17:54:04Z)
On the Saturation Effects of Spectral Algorithms in Large Dimensions [14.63552944833659]
本研究の主な焦点は,大規模なスペクトルアルゴリズムの飽和効果を大規模に検討することである。飽和効果は, 原条件$s>tau$で, 固定次元設定では$s>2tau$で発生する。
論文参考訳（メタデータ） (2025-03-01T14:21:38Z)
Can Stability be Detrimental? Better Generalization through Gradient Descent Instabilities [14.741581246137404]
本研究では,大きな学習率によって引き起こされる不安定さが,損失景観の平坦な領域へモデルパラメータを移動させることを示す。最新のベンチマークデータセットでは,これらが優れた一般化性能をもたらすことが判明した。
論文参考訳（メタデータ） (2024-12-23T14:32:53Z)
A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。 i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文参考訳（メタデータ） (2024-04-18T16:46:08Z)
On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文参考訳（メタデータ） (2023-12-13T02:11:07Z)
Convergence of mean-field Langevin dynamics: Time and space discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文参考訳（メタデータ） (2023-06-12T16:28:11Z)
Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文参考訳（メタデータ） (2023-06-06T09:12:49Z)
Implicit Bias of Gradient Descent for Logistic Regression at the Edge of Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文参考訳（メタデータ） (2023-05-19T16:24:47Z)
Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文参考訳（メタデータ） (2022-10-13T15:09:54Z)
Magnitude and Angle Dynamics in Training Single ReLU Neurons [45.886537625951256]
勾配フロー $w(t)$ を等級 $w(t)$ と角 $phi(t):= pi -theta(t) $ に分解する。小型初期化は深い単一ReLUニューロンに対して緩やかな収束速度を誘導する。
論文参考訳（メタデータ） (2022-09-27T13:58:46Z)
Analytic Study of Families of Spurious Minima in Two-Layer ReLU Neural Networks [15.711517003382484]
ヘッセンスペクトルは、$d$で成長する$Theta(d)$固有値を除いて、正近傍に集中していることが示される。これにより、分岐理論の強力な道具を用いてミニマの作成と消滅が可能となる。
論文参考訳（メタデータ） (2021-07-21T22:05:48Z)
Vanishing Curvature and the Power of Adaptive Methods in Randomly Initialized Deep Networks [30.467121747150816]
本稿では,ニューラルネットワークの深部で一般的に発生する,いわゆる消滅勾配現象を再考する。ネットワーク幅が O(depth) 未満のスケールでは, 消失勾配を回避できないことを示す。
論文参考訳（メタデータ） (2021-06-07T16:29:59Z)
Implicit bias of deep linear networks in the large learning rate phase [15.846533303963229]
大規模学習率体系におけるロジスティック損失を用いた二項分類のための深い線形ネットワークの暗黙バイアス効果を特徴付ける。データの分離条件により、勾配降下反復はカタパルト相においてより平坦な最小値に収束すると主張する。
論文参考訳（メタデータ） (2020-11-25T06:50:30Z)
Direction Matters: On the Implicit Bias of Stochastic Gradient Descent with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。 SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文参考訳（メタデータ） (2020-11-04T21:07:52Z)
Analytic Characterization of the Hessian in Shallow ReLU Models: A Tale of Symmetry [9.695960412426672]
我々は,スプリアスミニマの様々な家系でヘッセンを解析的に特徴付ける。特に、$dge k$ 標準ガウス入力について、 (a) ヘッセンの $dk$ 固有値の内、$dk - O(d)$ が 0 に近づき、 (b) $Omega(d)$ 固有値は $k$ で線型的に増加することを証明している。
論文参考訳（メタデータ） (2020-08-04T20:08:35Z)
Implicit Bias in Deep Linear Classification: Initialization Scale vs Training Accuracy [71.25689267025244]
移行がスケールとトレーニング損失の最小化の関係によってどのように制御されるかを示す。以上の結果から,勾配降下の限界挙動は,ばかげた訓練精度でのみ引き起こされることが示唆された。
論文参考訳（メタデータ） (2020-07-13T23:49:53Z)
Complex Dynamics in Simple Neural Networks: Understanding Gradient Flow in Phase Retrieval [31.993312235435916]
勾配に基づくアルゴリズムは、スパイラルなアルゴリズムに閉じ込められることなく、優れたミニマを見つけることができることを示す。数値実験により、この状態では勾配流アルゴリズムは捕捉されず、不安定な方向に沿った臨界点から遠ざかって、大域的な最小値を見つけることに成功した。
論文参考訳（メタデータ） (2020-06-12T08:21:12Z)
Analytic Signal Phase in $N-D$ by Linear Symmetry Tensor--fingerprint modeling [69.35569554213679]
解析信号位相とその勾配は2-D$以上の不連続性を持つことを示す。この欠点は深刻なアーティファクトをもたらす可能性があるが、問題は1-D $シグナルには存在しない。本稿では,複数のGaborフィルタに頼って線形シンメトリー位相を用いることを提案する。
論文参考訳（メタデータ） (2020-05-16T21:17:26Z)
Continuous-time quantum walks in the presence of a quadratic perturbation [55.41644538483948]
連続時間量子ウォークの特性を、$mathcalH=L + lambda L2$という形のハミルトン群で解決する。低/高接続性および/または対称性を持つパラダイムモデルであるため、サイクル、完全、およびスターグラフを考える。
論文参考訳（メタデータ） (2020-05-13T14:53:36Z)
The Break-Even Point on Optimization Trajectories of Deep Neural Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文参考訳（メタデータ） (2020-02-21T22:55:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。