論文の概要: Dynamical Decoupling of Generalization and Overfitting in Large Two-Layer Networks
- arxiv url: http://arxiv.org/abs/2502.21269v1
- Date: Fri, 28 Feb 2025 17:45:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 16:38:46.095592
- Title: Dynamical Decoupling of Generalization and Overfitting in Large Two-Layer Networks
- Title(参考訳): 大規模2層ネットワークにおける一般化とオーバーフィッティングの動的分離
- Authors: Andrea Montanari, Pierfrancesco Urbani,
- Abstract要約: 2層ニューラルネットワークのトレーニング力学について検討する。
トレーニングダイナミクスにはいくつかの新しい現象がある。
これらには、ガウス/ラデマッハの複雑さの増大に伴う緩やかな時間スケールの出現が含まれる。
- 参考スコア(独自算出の注目度): 12.061229162870513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The inductive bias and generalization properties of large machine learning models are -- to a substantial extent -- a byproduct of the optimization algorithm used for training. Among others, the scale of the random initialization, the learning rate, and early stopping all have crucial impact on the quality of the model learnt by stochastic gradient descent or related algorithms. In order to understand these phenomena, we study the training dynamics of large two-layer neural networks. We use a well-established technique from non-equilibrium statistical physics (dynamical mean field theory) to obtain an asymptotic high-dimensional characterization of this dynamics. This characterization applies to a Gaussian approximation of the hidden neurons non-linearity, and empirically captures well the behavior of actual neural network models. Our analysis uncovers several interesting new phenomena in the training dynamics: $(i)$ The emergence of a slow time scale associated with the growth in Gaussian/Rademacher complexity; $(ii)$ As a consequence, algorithmic inductive bias towards small complexity, but only if the initialization has small enough complexity; $(iii)$ A separation of time scales between feature learning and overfitting; $(iv)$ A non-monotone behavior of the test error and, correspondingly, a `feature unlearning' phase at large times.
- Abstract(参考訳): 大規模機械学習モデルの帰納バイアスと一般化特性は、トレーニングに使用される最適化アルゴリズムの副産物である。
中でも、ランダム初期化、学習率、早期停止のスケールは、確率勾配降下または関連するアルゴリズムによって学習されたモデルの品質に決定的な影響を及ぼす。
これらの現象を理解するため,大規模2層ニューラルネットワークのトレーニング力学について検討した。
非平衡統計物理学(力学平均場理論)から確立された手法を用いて、この力学の漸近的高次元的特徴を得る。
この特徴は隠れたニューロンの非線形性のガウス近似に適用され、実際のニューラルネットワークモデルの振る舞いを経験的に捉えている。
我々の分析では、トレーニングダイナミクスにおける興味深い新しい現象がいくつか発見されている。
(i)$ ガウス/ラデマッハの複雑さの増大に伴う緩やかな時間スケールの出現;$
(ii)$ 結果として、アルゴリズム的帰納的バイアスは、小さな複雑さに対するものであるが、初期化が十分小さな複雑さを持つ場合のみである。
(iii)$ 特徴学習と過剰適合の時間スケールの分離;$
(iv)$ テストエラーの非単調な振る舞いと、それに対応する「フェールアンラーニング」フェーズが、多くの場合に発生する。
関連論文リスト
- On the Generalization Behavior of Deep Residual Networks From a Dynamical System Perspective [1.0388986221727612]
ディープニューラルネットワーク(DNN)は非常に高度な機械学習を持ち、モデル深度は彼らの成功に中心的な役割を果たす。
本研究では,Rademacher複雑性,動的システムのフローマップ,ResNetsの深層限界における収束挙動を組み合わせることで,離散的および連続的残差ネットワーク(ResNets)の一般化誤差境界を確立する。
Findingsは、離散時間と連続時間の両方のResNet間の一般化の統一的な理解を提供し、サンプルの複雑さの順序と離散時間と連続時間設定の間の仮定のギャップを埋めるのに役立ちます。
論文 参考訳(メタデータ) (2026-02-24T13:59:06Z) - Gradient Descent as a Perceptron Algorithm: Understanding Dynamics and Implicit Acceleration [67.12978375116599]
勾配降下(GD)のステップが一般化されたパーセプトロンアルゴリズムのステップに還元されることを示す。
これは、ニューラルネットワークで観測される最適化力学と暗黙の加速現象を説明するのに役立つ。
論文 参考訳(メタデータ) (2025-12-12T14:16:35Z) - The Sample Complexity of Online Reinforcement Learning: A Multi-model Perspective [55.15192437680943]
連続状態と行動空間を持つ非線形力学系の一般設定におけるオンライン強化学習のサンプル複雑性について検討した。
我々のアルゴリズムは、$mathcalO(N epsilon2 + Mathrmln(m(epsilon)/epsilon2)$のポリシーを後悔する。
力学がコンパクトで実数値のパラメータ集合によってパラメータ化される特別な場合、$mathcalO(sqrt)のポリシー後悔を証明する。
論文 参考訳(メタデータ) (2025-01-27T10:01:28Z) - When are dynamical systems learned from time series data statistically accurate? [2.2577735334028923]
本稿では,時系列データから得られた複雑な力学モデルの一般化に対するエルゴード論的アプローチを提案する。
我々の主な貢献は、カオスシステムを含むエルゴード系のクラスの神経表現の一般化を定義し、分析することである。
論文 参考訳(メタデータ) (2024-11-09T23:44:17Z) - Learning Multi-Index Models with Neural Networks via Mean-Field Langevin Dynamics [21.55547541297847]
平均場ランゲヴィンアルゴリズムを用いて学習した2層ニューラルネットワークを用いて,高次元のマルチインデックスモデルを学習する問題について検討する。
軽度の分布仮定の下では、サンプルと計算の複雑さの両方を制御する実効次元 $d_mathrmeff$ を特徴づける。
論文 参考訳(メタデータ) (2024-08-14T02:13:35Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Stretched and measured neural predictions of complex network dynamics [2.1024950052120417]
微分方程式のデータ駆動近似は、力学系のモデルを明らかにする従来の方法に代わる有望な方法である。
最近、ダイナミックスを研究する機械学習ツールとしてニューラルネットワークが採用されている。これは、データ駆動型ソリューションの検出や微分方程式の発見に使用できる。
従来の統計学習理論の限界を超えてモデルの一般化可能性を拡張することは可能であることを示す。
論文 参考訳(メタデータ) (2023-01-12T09:44:59Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Going Beyond Linear RL: Sample Efficient Neural Function Approximation [76.57464214864756]
2層ニューラルネットワークによる関数近似について検討する。
この結果は線形(あるいは可溶性次元)法で達成できることを大幅に改善する。
論文 参考訳(メタデータ) (2021-07-14T03:03:56Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。