論文の概要: Dynamical Decoupling of Generalization and Overfitting in Large Two-Layer Networks
- arxiv url: http://arxiv.org/abs/2502.21269v2
- Date: Tue, 02 Sep 2025 20:56:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:02.933527
- Title: Dynamical Decoupling of Generalization and Overfitting in Large Two-Layer Networks
- Title(参考訳): 大規模2層ネットワークにおける一般化とオーバーフィッティングの動的分離
- Authors: Andrea Montanari, Pierfrancesco Urbani,
- Abstract要約: 本研究では,2層ニューラルネットワークの動的平均場理論による学習ダイナミクスについて検討する。
ネットワーク幅が大きい場合には、トレーニングダイナミクスが時間スケールの分離を示すことを示す。
- 参考スコア(独自算出の注目度): 10.591718074748895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the inductive bias and generalization properties of large overparametrized machine learning models requires to characterize the dynamics of the training algorithm. We study the learning dynamics of large two-layer neural networks via dynamical mean field theory, a well established technique of non-equilibrium statistical physics. We show that, for large network width, the training dynamics exhibits a separation of timescales which implies: $(i)$ The emergence of a slow time scale associated with the growth in Gaussian/Rademacher complexity of the network; $(ii)$ Inductive bias towards small complexity if the initialization has small enough complexity; $(iii)$ A dynamical decoupling between feature learning and overfitting regimes; $(iv)$ A non-monotone behavior of the test error, associated `feature unlearning' regime at large times.
- Abstract(参考訳): 大規模過パラメータ機械学習モデルの帰納バイアスと一般化特性を理解するには、トレーニングアルゴリズムのダイナミクスを特徴づける必要がある。
本研究では,非平衡統計物理学の確立した手法である動的平均場理論を用いて,大規模2層ニューラルネットワークの学習力学について検討する。
ネットワーク幅が大きいと、トレーニングダイナミクスは時間スケールの分離を示します。
(i)$ ネットワークのガウス/ラデマッハの複雑さの成長に伴う遅い時間スケールの出現;$
(ii)$初期化の複雑さが十分小さい場合、小さな複雑さに対する帰納的バイアス;$
(iii)$ 特徴学習と過剰適合体制の動的疎結合
(iv)$ テストエラーの非単調な振る舞い。
関連論文リスト
- When are dynamical systems learned from time series data statistically accurate? [2.2577735334028923]
本稿では,時系列データから得られた複雑な力学モデルの一般化に対するエルゴード論的アプローチを提案する。
我々の主な貢献は、カオスシステムを含むエルゴード系のクラスの神経表現の一般化を定義し、分析することである。
論文 参考訳(メタデータ) (2024-11-09T23:44:17Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Stretched and measured neural predictions of complex network dynamics [2.1024950052120417]
微分方程式のデータ駆動近似は、力学系のモデルを明らかにする従来の方法に代わる有望な方法である。
最近、ダイナミックスを研究する機械学習ツールとしてニューラルネットワークが採用されている。これは、データ駆動型ソリューションの検出や微分方程式の発見に使用できる。
従来の統計学習理論の限界を超えてモデルの一般化可能性を拡張することは可能であることを示す。
論文 参考訳(メタデータ) (2023-01-12T09:44:59Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Going Beyond Linear RL: Sample Efficient Neural Function Approximation [76.57464214864756]
2層ニューラルネットワークによる関数近似について検討する。
この結果は線形(あるいは可溶性次元)法で達成できることを大幅に改善する。
論文 参考訳(メタデータ) (2021-07-14T03:03:56Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。