論文の概要: Random Matrix Theory of Early-Stopped Gradient Flow: A Transient BBP Scenario
- arxiv url: http://arxiv.org/abs/2604.18450v1
- Date: Mon, 20 Apr 2026 16:05:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.983856
- Title: Random Matrix Theory of Early-Stopped Gradient Flow: A Transient BBP Scenario
- Title(参考訳): 初期停止勾配流れのランダム行列理論:過渡的BBPシナリオ
- Authors: Florentin Coeurdoux, Grégoire Ferré, Jean-Philippe Bouchaud,
- Abstract要約: 孤立した固有値がノイズの多いバルクから切り離された後に学習が始まり、オーバーフィッティング体制で消えることを示す。
対応する位相図を写像し、有限サイズのシミュレーションに対して理論を検証する。
- 参考スコア(独自算出の注目度): 1.2744523252873352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Empirical studies of trained models often report a transient regime in which signal is detectable in a finite gradient descent time window before overfitting dominates. We provide an analytically tractable random-matrix model that reproduces this phenomenon for gradient flow in a linear teacher--student setting. In this framework, learning occurs when an isolated eigenvalue separates from a noisy bulk, before eventually disappearing in the overfitting regime. The key ingredient is anisotropy in the input covariance, which induces fast and slow directions in the learning dynamics. In a two-block covariance model, we derive the full time-dependent bulk spectrum of the symmetrized weight matrix through a $2\times 2$ Dyson equation, and we obtain an explicit outlier condition for a rank-one teacher via a rank-two determinant formula. This yields a transient Baik-Ben Arous-Péché (BBP) transition: depending on signal strength and covariance anisotropy, the teacher spike may never emerge, emerge and persist, or emerge only during an intermediate time interval before being reabsorbed into the bulk. We map the corresponding phase diagrams and validate the theory against finite-size simulations. Our results provide a minimal solvable mechanism for early stopping as a transient spectral effect driven by anisotropy and noise.
- Abstract(参考訳): 訓練されたモデルの実証的研究では、過度に適合する前に、信号が有限勾配降下時間ウィンドウで検出可能な過渡的な状態が報告されることが多い。
本研究では,この現象を線形教師の学習環境における勾配流に再現する,解析的に抽出可能なランダム行列モデルを提案する。
この枠組みでは、孤立した固有値がノイズの多いバルクから分離された後に学習が始まり、最終的にはオーバーフィッティング体制で消滅する。
鍵となる要素は入力共分散における異方性であり、学習力学における高速かつ遅い方向を誘導する。
2ブロック共分散モデルでは、シンメトリクス行列の全時間依存バルクスペクトルを2ドル2ドルダイソン方程式で導出し、ランク1の教師に対してランク2決定式による明示的な外乱条件を得る。
信号強度と共分散異方性により、教師のスパイクは、バルクに再吸収される前に、中間時間間隔で出現、出現、持続、または出現しない。
対応する位相図を写像し、有限サイズのシミュレーションに対して理論を検証する。
この結果から, 異方性と雑音による過渡スペクトル効果として早期に停止する最小の可溶性機構が得られた。
関連論文リスト
- Plug-and-Play Diffusion Meets ADMM: Dual-Variable Coupling for Robust Medical Image Reconstruction [45.25461515976432]
画像再構成のための強力なパラダイムとして,DP(Plug-and-Play diffusion prior)フレームワークが登場した。
本稿では, バイアス・ハロシン化トレードオフを解消し, 収束を著しく加速した最先端の勾配を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2026-02-26T16:58:43Z) - Spectral Gradient Descent Mitigates Anisotropy-Driven Misalignment: A Case Study in Phase Retrieval [13.218607858857295]
スペクトル勾配法は、スケールを捨てながら方向情報を保存することによって勾配の更新を変更する。
非線形位相探索モデルの動的解析により,これらの利得のメカニズムを解明する。
論文 参考訳(メタデータ) (2026-01-30T07:12:58Z) - The Geometry of Grokking: Norm Minimization on the Zero-Loss Manifold [5.076419064097734]
暗記後の学習は、制約付き最適化のレンズを通して理解することができると論じる。
勾配降下は、零損失多様体上の重みノルムを効果的に最小化することを示す。
実験により,予測勾配を用いた学習過程のシミュレーションは,グルーキングの遅延一般化と表現学習特性の両方を再現することを確認した。
論文 参考訳(メタデータ) (2025-11-02T18:44:42Z) - Contraction and entropy production in continuous-time Sinkhorn dynamics [0.6423239719448169]
以前は非正としか知られていなかったシンクホーン流のエントロピー生成速度を正確に同定する。
この流れは, ターゲット境界面上の可逆マルコフ力学を, オンサーガー勾配流として誘導することを示す。
我々は、Sinkhorn LSIの即時的なユースケースとして、生成モデルを訓練する潜在空間の設計原理と、離散時間アルゴリズムの停止アルゴリズムの2つを挙げる。
論文 参考訳(メタデータ) (2025-10-14T15:32:15Z) - Learning What Matters: Steering Diffusion via Spectrally Anisotropic Forward Noise [43.07594740645669]
Diffusion Probabilistic Models (DPM) は強力な生成性能を達成しているが、その帰納的バイアスは大半が暗黙的である。
本研究では,拡散モデルのトレーニングとサンプリングに帰納的バイアスを組み込むことにより,モデルの目的とするデータ分布をよりよく適応することを目的とする。
異方性前方共分散を周波数対角共分散に置き換えることで、これらのバイアスを形作る異方性雑音演算子を導入する。
論文 参考訳(メタデータ) (2025-10-07T16:08:39Z) - Kernel-Smoothed Scores for Denoising Diffusion: A Bias-Variance Study [3.265950484493743]
拡散モデルは暗記しがちである。
スコアの正規化は、トレーニングデータセットのサイズを増やすのと同じ効果がある。
この視点は、拡散をデノナイズする2つの規則化機構を強調する。
論文 参考訳(メタデータ) (2025-05-28T20:22:18Z) - Sixth-order time-convolutionless master equation and beyond: Late-time resummations, two types of divergences, and the limits of validity [1.7620619500719317]
時間畳み込みなし(TCL)マスター方程式を2nに拡張して解析する。
我々はヴァン・カンペンサントが早期の世俗的成長を抑える一方で、最終的には長い時間で分岐することを示した。
指数関数的に減衰する相関について、この手法は臨界結合閾値以下で適切なマルコフ極限を回復する。
論文 参考訳(メタデータ) (2024-06-16T22:15:07Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Restoration-Degradation Beyond Linear Diffusions: A Non-Asymptotic
Analysis For DDIM-Type Samplers [90.45898746733397]
本研究では拡散生成モデルに用いる決定論的サンプリング器の非漸近解析のためのフレームワークを開発する。
確率フローODEに沿った1ステップは,1) 条件付き対数線上を無限に先行して上昇する回復ステップ,2) 雑音を現在の勾配に向けて前向きに進行する劣化ステップの2段階で表すことができる。
論文 参考訳(メタデータ) (2023-03-06T18:59:19Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。