論文の概要: High-Dimensional Analysis of Gradient Flow for Extensive-Width Quadratic Neural Networks
- arxiv url: http://arxiv.org/abs/2601.10483v1
- Date: Thu, 15 Jan 2026 15:05:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.188283
- Title: High-Dimensional Analysis of Gradient Flow for Extensive-Width Quadratic Neural Networks
- Title(参考訳): 広帯域2次ニューラルネットワークの勾配流れの高次元解析
- Authors: Simon Martin, Giulio Biroli, Francis Bach,
- Abstract要約: 本研究では,教師-学生設定における2次活性化を伴う浅層ニューラルネットワークの高次元学習ダイナミクスについて検討する。
我々は、力学平均場理論の精神において、勾配流の動的特性を導出する。
- 参考スコア(独自算出の注目度): 6.3440416106624555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the high-dimensional training dynamics of a shallow neural network with quadratic activation in a teacher-student setup. We focus on the extensive-width regime, where the teacher and student network widths scale proportionally with the input dimension, and the sample size grows quadratically. This scaling aims to describe overparameterized neural networks in which feature learning still plays a central role. In the high-dimensional limit, we derive a dynamical characterization of the gradient flow, in the spirit of dynamical mean-field theory (DMFT). Under l2-regularization, we analyze these equations at long times and characterize the performance and spectral properties of the resulting estimator. This result provides a quantitative understanding of the effect of overparameterization on learning and generalization, and reveals a double descent phenomenon in the presence of label noise, where generalization improves beyond interpolation. In the small regularization limit, we obtain an exact expression for the perfect recovery threshold as a function of the network widths, providing a precise characterization of how overparameterization influences recovery.
- Abstract(参考訳): 本研究では,教師-学生設定における2次活性化を伴う浅層ニューラルネットワークの高次元学習ダイナミクスについて検討する。
我々は,教師と学生のネットワーク幅が入力次元に比例して拡大し,サンプルサイズが2次的に大きくなる広帯域体制に注目した。
このスケーリングは、機能学習が依然として中心的な役割を果たす、過度にパラメータ化されたニューラルネットワークを記述することを目的としている。
高次元極限では、動的平均場理論(DMFT)の精神において勾配流の力学特性を導出する。
l2-正則化の下で、これらの方程式を長時間に解析し、その結果の推定器の性能とスペクトル特性を特徴づける。
この結果は、過度パラメータ化が学習と一般化に与える影響を定量的に把握し、ラベルノイズの存在下での二重降下現象を明らかにし、一般化は補間を超えて改善される。
小さな正規化限界において、ネットワーク幅の関数として完全回復しきい値の正確な式を求め、過パラメータ化が回復にどのように影響するかを正確に評価する。
関連論文リスト
- Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。
SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。
このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文 参考訳(メタデータ) (2025-03-12T17:33:13Z) - Deep Linear Network Training Dynamics from Random Initialization: Data, Width, Depth, and Hyperparameter Transfer [40.40780546513363]
我々は,枝を1/sqrttextdepth$にスケールした場合に無限の深さ制限を可能にする非残留ニューラルネットワークと残留ニューラルネットワークの両方について記述する。
本モデルでは, 電力法構造データに対する高速化された電力法則トレーニングのダイナミクスを, 最近の研究で観測されたリッチな状態下で回復することを示す。
論文 参考訳(メタデータ) (2025-02-04T17:50:55Z) - Hamiltonian Mechanics of Feature Learning: Bottleneck Structure in Leaky ResNets [58.460298576330835]
ResNets と Fully-Connected Nets を相互接続する Leaky ResNets について「有効深度」に依存して検討する。
この直感を利用して、以前の研究で見られるように、ボトルネック構造の出現を説明する。
論文 参考訳(メタデータ) (2024-05-27T18:15:05Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Generalization of Scaled Deep ResNets in the Mean-Field Regime [55.77054255101667]
無限深度および広帯域ニューラルネットワークの限界におけるエンスケールResNetについて検討する。
この結果から,遅延学習体制を超えた深層ResNetの一般化能力に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2024-03-14T21:48:00Z) - On the Impact of Overparameterization on the Training of a Shallow
Neural Network in High Dimensions [0.0]
本研究では,2次活性化関数と2次コストを持つ浅部ニューラルネットワークのトレーニングダイナミクスについて検討する。
同じニューラルアーキテクチャに関する以前の研究と並行して、集団リスクの勾配流に従って最適化を行う。
論文 参考訳(メタデータ) (2023-11-07T08:20:31Z) - Universal Scaling Laws of Absorbing Phase Transitions in Artificial Deep Neural Networks [0.8932296777085644]
信号伝播ダイナミクスの位相境界付近で動作する従来の人工深層ニューラルネットワークは、カオスのエッジとしても知られ、位相遷移を吸収する普遍的なスケーリング法則を示す。
我々は、伝搬力学の完全な決定論的性質を利用して、ニューラルネットワークの信号崩壊と吸収状態の類似を解明する。
論文 参考訳(メタデータ) (2023-07-05T13:39:02Z) - ENN: A Neural Network with DCT Adaptive Activation Functions [2.2713084727838115]
離散コサイン変換(DCT)を用いて非線形活性化関数をモデル化する新しいモデルであるExpressive Neural Network(ENN)を提案する。
このパラメータ化は、トレーニング可能なパラメータの数を低く保ち、勾配ベースのスキームに適合し、異なる学習タスクに適応する。
ENNのパフォーマンスは、いくつかのシナリオにおいて40%以上の精度のギャップを提供する、アートベンチマークの状態を上回ります。
論文 参考訳(メタデータ) (2023-07-02T21:46:30Z) - Momentum Diminishes the Effect of Spectral Bias in Physics-Informed
Neural Networks [72.09574528342732]
物理インフォームドニューラルネットワーク(PINN)アルゴリズムは、偏微分方程式(PDE)を含む幅広い問題を解く上で有望な結果を示している。
彼らはしばしば、スペクトルバイアスと呼ばれる現象のために、ターゲット関数が高周波の特徴を含むとき、望ましい解に収束しない。
本研究は, 運動量による勾配降下下で進化するPINNのトレーニングダイナミクスを, NTK(Neural Tangent kernel)を用いて研究するものである。
論文 参考訳(メタデータ) (2022-06-29T19:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。