論文の概要: The Role of the Time-Dependent Hessian in High-Dimensional Optimization
- arxiv url: http://arxiv.org/abs/2403.02418v3
- Date: Thu, 24 Jul 2025 09:06:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:40.312389
- Title: The Role of the Time-Dependent Hessian in High-Dimensional Optimization
- Title(参考訳): 高次元最適化における時間依存ヘッセンの役割
- Authors: Tony Bonnaire, Giulio Biroli, Chiara Cammarota,
- Abstract要約: グラディエント降下は、特に機械学習アプリケーションにおいて、荒れた風景の中でミニマを見つけるのに一般的に使用される。
ここでは,信号が失われる前に,システムが信号を回復する能力である解像位相に着目した。
- 参考スコア(独自算出の注目度): 9.50832466973301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient descent is commonly used to find minima in rough landscapes, particularly in recent machine learning applications. However, a theoretical understanding of why good solutions are found remains elusive, especially in strongly non-convex and high-dimensional settings. Here, we focus on the phase retrieval problem as a typical example, which has received a lot of attention recently in theoretical machine learning. We analyze the Hessian during gradient descent, identify a dynamical transition in its spectral properties, and relate it to the ability of escaping rough regions in the loss landscape. When the signal-to-noise ratio (SNR) is large enough, an informative negative direction exists in the Hessian at the beginning of the descent, i.e in the initial condition. While descending, a BBP transition in the spectrum takes place in finite time: the direction is lost, and the dynamics is trapped in a rugged region filled with marginally stable bad minima. Surprisingly, for finite system sizes, this window of negative curvature allows the system to recover the signal well before the theoretical SNR found for infinite sizes, emphasizing the central role of initialization and early-time dynamics for efficiently navigating rough landscapes.
- Abstract(参考訳): グラディエント降下は、特に最近の機械学習アプリケーションにおいて、荒れた風景の中でミニマを見つけるために一般的に用いられる。
しかし、なぜ良い解が見つかるのかという理論的理解は、特に強い非凸と高次元の設定において、解明され続けている。
本稿では,近年,理論的機械学習において多くの注目を集めている位相探索問題を典型例として取り上げる。
勾配降下時のヘシアンを解析し、スペクトル特性の動的遷移を同定し、ロスランドスケープ内の粗い領域を脱出する能力と関連付ける。
信号対雑音比(SNR)が十分に大きい場合、降下開始時、すなわち初期状態において、Hessianに情報負の方向が存在する。
降下中、スペクトル中のBBP遷移は有限時間で行われ、方向が失われ、ダイナミックスはわずかに安定なバッドミニマで満たされた頑丈な領域に閉じ込められる。
驚くべきことに、有限のシステムサイズに対して、この負の曲率の窓は、無限のサイズで理論的なSNRが発見されるずっと前に信号を回復することができ、粗い風景を効率的にナビゲートするための初期化と早期のダイナミクスの中心的な役割を強調している。
関連論文リスト
- The global convergence time of stochastic gradient descent in non-convex landscapes: Sharp estimates via large deviations [29.642830843568525]
一般の非損失関数の大域的最小値に到達するのに、降下勾配に要する時間について検討する。
ニューラルネットワークへの応用により、我々は局所ミニマを用いた損失関数の解析の一連の改良と拡張を提供する。
論文 参考訳(メタデータ) (2025-03-20T17:54:04Z) - On the Saturation Effects of Spectral Algorithms in Large Dimensions [14.63552944833659]
本研究の主な焦点は,大規模なスペクトルアルゴリズムの飽和効果を大規模に検討することである。
飽和効果は, 原条件$s>tau$で, 固定次元設定では$s>2tau$で発生する。
論文 参考訳(メタデータ) (2025-03-01T14:21:38Z) - Can Stability be Detrimental? Better Generalization through Gradient Descent Instabilities [14.741581246137404]
本研究では,大きな学習率によって引き起こされる不安定さが,損失景観の平坦な領域へモデルパラメータを移動させることを示す。
最新のベンチマークデータセットでは,これらが優れた一般化性能をもたらすことが判明した。
論文 参考訳(メタデータ) (2024-12-23T14:32:53Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Magnitude and Angle Dynamics in Training Single ReLU Neurons [45.886537625951256]
勾配フロー $w(t)$ を等級 $w(t)$ と角 $phi(t):= pi -theta(t) $ に分解する。
小型初期化は深い単一ReLUニューロンに対して緩やかな収束速度を誘導する。
論文 参考訳(メタデータ) (2022-09-27T13:58:46Z) - Analytic Study of Families of Spurious Minima in Two-Layer ReLU Neural
Networks [15.711517003382484]
ヘッセンスペクトルは、$d$で成長する$Theta(d)$固有値を除いて、正近傍に集中していることが示される。
これにより、分岐理論の強力な道具を用いてミニマの作成と消滅が可能となる。
論文 参考訳(メタデータ) (2021-07-21T22:05:48Z) - Vanishing Curvature and the Power of Adaptive Methods in Randomly
Initialized Deep Networks [30.467121747150816]
本稿では,ニューラルネットワークの深部で一般的に発生する,いわゆる消滅勾配現象を再考する。
ネットワーク幅が O(depth) 未満のスケールでは, 消失勾配を回避できないことを示す。
論文 参考訳(メタデータ) (2021-06-07T16:29:59Z) - Implicit bias of deep linear networks in the large learning rate phase [15.846533303963229]
大規模学習率体系におけるロジスティック損失を用いた二項分類のための深い線形ネットワークの暗黙バイアス効果を特徴付ける。
データの分離条件により、勾配降下反復はカタパルト相においてより平坦な最小値に収束すると主張する。
論文 参考訳(メタデータ) (2020-11-25T06:50:30Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Analytic Characterization of the Hessian in Shallow ReLU Models: A Tale
of Symmetry [9.695960412426672]
我々は,スプリアスミニマの様々な家系でヘッセンを解析的に特徴付ける。
特に、$dge k$ 標準ガウス入力について、 (a) ヘッセンの $dk$ 固有値の内、$dk - O(d)$ が 0 に近づき、 (b) $Omega(d)$ 固有値は $k$ で線型的に増加することを証明している。
論文 参考訳(メタデータ) (2020-08-04T20:08:35Z) - Implicit Bias in Deep Linear Classification: Initialization Scale vs
Training Accuracy [71.25689267025244]
移行がスケールとトレーニング損失の最小化の関係によってどのように制御されるかを示す。
以上の結果から,勾配降下の限界挙動は,ばかげた訓練精度でのみ引き起こされることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T23:49:53Z) - Complex Dynamics in Simple Neural Networks: Understanding Gradient Flow
in Phase Retrieval [31.993312235435916]
勾配に基づくアルゴリズムは、スパイラルなアルゴリズムに閉じ込められることなく、優れたミニマを見つけることができることを示す。
数値実験により、この状態では勾配流アルゴリズムは捕捉されず、不安定な方向に沿った臨界点から遠ざかって、大域的な最小値を見つけることに成功した。
論文 参考訳(メタデータ) (2020-06-12T08:21:12Z) - Analytic Signal Phase in $N-D$ by Linear Symmetry Tensor--fingerprint
modeling [69.35569554213679]
解析信号位相とその勾配は2-D$以上の不連続性を持つことを示す。
この欠点は深刻なアーティファクトをもたらす可能性があるが、問題は1-D $シグナルには存在しない。
本稿では,複数のGaborフィルタに頼って線形シンメトリー位相を用いることを提案する。
論文 参考訳(メタデータ) (2020-05-16T21:17:26Z) - Continuous-time quantum walks in the presence of a quadratic
perturbation [55.41644538483948]
連続時間量子ウォークの特性を、$mathcalH=L + lambda L2$という形のハミルトン群で解決する。
低/高接続性および/または対称性を持つパラダイムモデルであるため、サイクル、完全、およびスターグラフを考える。
論文 参考訳(メタデータ) (2020-05-13T14:53:36Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。