論文の概要: Escape dynamics and implicit bias of one-pass SGD in overparameterized quadratic networks
- arxiv url: http://arxiv.org/abs/2604.03068v1
- Date: Fri, 03 Apr 2026 14:47:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.496718
- Title: Escape dynamics and implicit bias of one-pass SGD in overparameterized quadratic networks
- Title(参考訳): 過パラメータ二次ネットワークにおける1パスSGDのエスケープダイナミクスと暗黙バイアス
- Authors: Dario Bocchi, Theotime Regimbeau, Carlo Lucibello, Luca Saglietti, Chiara Cammarota,
- Abstract要約: 2層ニューラルネットワークの1パス勾配勾配勾配ダイナミクスを教師の枠組みで解析する。
本研究では,学生の進化を規定する低次元常微分方程式について考察する。
- 参考スコア(独自算出の注目度): 3.198538967655537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We analyze the one-pass stochastic gradient descent dynamics of a two-layer neural network with quadratic activations in a teacher--student framework. In the high-dimensional regime, where the input dimension $N$ and the number of samples $M$ diverge at fixed ratio $α= M/N$, and for finite hidden widths $(p,p^*)$ of the student and teacher, respectively, we study the low-dimensional ordinary differential equations that govern the evolution of the student--teacher and student--student overlap matrices. We show that overparameterization ($p>p^*$) only modestly accelerates escape from a plateau of poor generalization by modifying the prefactor of the exponential decay of the loss. We then examine how unconstrained weight norms introduce a continuous rotational symmetry that results in a nontrivial manifold of zero-loss solutions for $p>1$. From this manifold the dynamics consistently selects the closest solution to the random initialization, as enforced by a conserved quantity in the ODEs governing the evolution of the overlaps. Finally, a Hessian analysis of the population-loss landscape confirms that the plateau and the solution manifold correspond to saddles with at least one negative eigenvalue and to marginal minima in the population-loss geometry, respectively.
- Abstract(参考訳): 本研究では,2層ニューラルネットワークの1パス確率勾配勾配ダイナミクスを教師学習の枠組みで解析する。
入力次元$N$とサンプル数$M$が固定比$α=M/N$でばらつき、学生と教師の有限隠れ幅$(p,p^*)$に対して、学生-教師と学生-学生の重複行列の進化を規定する低次元常微分方程式を研究する。
過パラメータ化 (p>p^*$) は, 損失の指数的崩壊のプレファクターを変更することで, 一般化の低い台地からの脱出を緩やかに加速する。
次に、制約のないウェイトノルムが、$p>1$の非自明な零解の多様体をもたらす連続回転対称性をいかに導入するかを検討する。
この多様体から力学は、重複の進化を管理するODEの保存量によって強制されるように、ランダム初期化に対する最も近い解を一貫して選択する。
最後に、人口空間のヘッセン解析により、高原と解多様体は、それぞれ、少なくとも1つの負の固有値を持つサドルと、人口空間幾何学における限界最小値に対応することを確認した。
関連論文リスト
- Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - Exact Dynamics of Multi-class Stochastic Gradient Descent [4.1538344141902135]
ワンパス勾配勾配法(SGD)を用いて学習した多種多様な高次元最適化問題の学習・学習速度ダイナミクスを解析するためのフレームワークを開発する。
我々は、ODEのシステムに対する決定論的解という観点から、リスクや真の信号との重なり合いを含む、制限力学の関数の大規模なクラスに対して、正確な表現を与える。
論文 参考訳(メタデータ) (2025-10-15T20:31:49Z) - Emergence and scaling laws in SGD learning of shallow neural networks [64.48316762675141]
等方性ガウスデータに基づいてP$ニューロンを持つ2層ニューラルネットワークを学習するためのオンライン勾配降下(SGD)の複雑さについて検討した。
平均二乗誤差(MSE)を最小化するために,学生2層ネットワークのトレーニングのためのSGDダイナミックスを高精度に解析する。
論文 参考訳(メタデータ) (2025-04-28T16:58:55Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Symmetries in the dynamics of wide two-layer neural networks [0.0]
無限広2層ReLUニューラルネットワークの集団リスクに対する勾配流の最適設定について(バイアスなしで)考察する。
まず,対象関数$f*$と入力分布で満たされた対称性の一般クラスを動的に保存する。
論文 参考訳(メタデータ) (2022-11-16T08:59:26Z) - High-dimensional limit theorems for SGD: Effective dynamics and critical
scaling [6.950316788263433]
我々は、勾配降下(SGD)の要約統計の軌跡に対する極限定理を証明する。
下記の有効弾道力学が人口減少の勾配流と一致するステップサイズにおける重要なスケーリング体制を示す。
この実効力学の固定点について、対応する拡散極限は極めて複雑であり、さらに退化することもある。
論文 参考訳(メタデータ) (2022-06-08T17:42:18Z) - Single Trajectory Nonparametric Learning of Nonlinear Dynamics [8.438421942654292]
力学系の1つの軌道が与えられた場合、非パラメトリック最小二乗推定器(LSE)の性能を解析する。
我々は最近開発された情報理論手法を活用し、非仮説クラスに対するLSEの最適性を確立する。
我々は、リプシッツ力学、一般化線形モデル、再生ケルネルヒルベルト空間(RKHS)のある種のクラスで記述される関数によって記述される力学など、実用上の関心のあるいくつかのシナリオを専門とする。
論文 参考訳(メタデータ) (2022-02-16T19:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。