論文の概要: Dynamical Decoupling of Generalization and Overfitting in Large Two-Layer Networks
- arxiv url: http://arxiv.org/abs/2502.21269v1
- Date: Fri, 28 Feb 2025 17:45:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:43:08.409291
- Title: Dynamical Decoupling of Generalization and Overfitting in Large Two-Layer Networks
- Title(参考訳): 大規模2層ネットワークにおける一般化とオーバーフィッティングの動的分離
- Authors: Andrea Montanari, Pierfrancesco Urbani,
- Abstract要約: 2層ニューラルネットワークのトレーニング力学について検討する。
トレーニングダイナミクスにはいくつかの新しい現象がある。
これらには、ガウス/ラデマッハの複雑さの増大に伴う緩やかな時間スケールの出現が含まれる。
- 参考スコア(独自算出の注目度): 12.061229162870513
- License:
- Abstract: The inductive bias and generalization properties of large machine learning models are -- to a substantial extent -- a byproduct of the optimization algorithm used for training. Among others, the scale of the random initialization, the learning rate, and early stopping all have crucial impact on the quality of the model learnt by stochastic gradient descent or related algorithms. In order to understand these phenomena, we study the training dynamics of large two-layer neural networks. We use a well-established technique from non-equilibrium statistical physics (dynamical mean field theory) to obtain an asymptotic high-dimensional characterization of this dynamics. This characterization applies to a Gaussian approximation of the hidden neurons non-linearity, and empirically captures well the behavior of actual neural network models. Our analysis uncovers several interesting new phenomena in the training dynamics: $(i)$ The emergence of a slow time scale associated with the growth in Gaussian/Rademacher complexity; $(ii)$ As a consequence, algorithmic inductive bias towards small complexity, but only if the initialization has small enough complexity; $(iii)$ A separation of time scales between feature learning and overfitting; $(iv)$ A non-monotone behavior of the test error and, correspondingly, a `feature unlearning' phase at large times.
- Abstract(参考訳): 大規模機械学習モデルの帰納バイアスと一般化特性は、トレーニングに使用される最適化アルゴリズムの副産物である。
中でも、ランダム初期化、学習率、早期停止のスケールは、確率勾配降下または関連するアルゴリズムによって学習されたモデルの品質に決定的な影響を及ぼす。
これらの現象を理解するため,大規模2層ニューラルネットワークのトレーニング力学について検討した。
非平衡統計物理学(力学平均場理論)から確立された手法を用いて、この力学の漸近的高次元的特徴を得る。
この特徴は隠れたニューロンの非線形性のガウス近似に適用され、実際のニューラルネットワークモデルの振る舞いを経験的に捉えている。
我々の分析では、トレーニングダイナミクスにおける興味深い新しい現象がいくつか発見されている。
(i)$ ガウス/ラデマッハの複雑さの増大に伴う緩やかな時間スケールの出現;$
(ii)$ 結果として、アルゴリズム的帰納的バイアスは、小さな複雑さに対するものであるが、初期化が十分小さな複雑さを持つ場合のみである。
(iii)$ 特徴学習と過剰適合の時間スケールの分離;$
(iv)$ テストエラーの非単調な振る舞いと、それに対応する「フェールアンラーニング」フェーズが、多くの場合に発生する。
関連論文リスト
- When are dynamical systems learned from time series data statistically accurate? [2.2577735334028923]
本稿では,時系列データから得られた複雑な力学モデルの一般化に対するエルゴード論的アプローチを提案する。
我々の主な貢献は、カオスシステムを含むエルゴード系のクラスの神経表現の一般化を定義し、分析することである。
論文 参考訳(メタデータ) (2024-11-09T23:44:17Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Going Beyond Linear RL: Sample Efficient Neural Function Approximation [76.57464214864756]
2層ニューラルネットワークによる関数近似について検討する。
この結果は線形(あるいは可溶性次元)法で達成できることを大幅に改善する。
論文 参考訳(メタデータ) (2021-07-14T03:03:56Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。