論文の概要: Learning time-scales in two-layers neural networks
- arxiv url: http://arxiv.org/abs/2303.00055v3
- Date: Wed, 17 Apr 2024 18:36:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 21:00:27.852933
- Title: Learning time-scales in two-layers neural networks
- Title(参考訳): 2層ニューラルネットワークにおける学習時間スケール
- Authors: Raphaël Berthier, Andrea Montanari, Kangjie Zhou,
- Abstract要約: 高次元の広層ニューラルネットワークの勾配流れのダイナミクスについて検討する。
新たな厳密な結果に基づいて,この環境下での学習力学のシナリオを提案する。
- 参考スコア(独自算出の注目度): 11.878594839685471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient-based learning in multi-layer neural networks displays a number of striking features. In particular, the decrease rate of empirical risk is non-monotone even after averaging over large batches. Long plateaus in which one observes barely any progress alternate with intervals of rapid decrease. These successive phases of learning often take place on very different time scales. Finally, models learnt in an early phase are typically `simpler' or `easier to learn' although in a way that is difficult to formalize. Although theoretical explanations of these phenomena have been put forward, each of them captures at best certain specific regimes. In this paper, we study the gradient flow dynamics of a wide two-layer neural network in high-dimension, when data are distributed according to a single-index model (i.e., the target function depends on a one-dimensional projection of the covariates). Based on a mixture of new rigorous results, non-rigorous mathematical derivations, and numerical simulations, we propose a scenario for the learning dynamics in this setting. In particular, the proposed evolution exhibits separation of timescales and intermittency. These behaviors arise naturally because the population gradient flow can be recast as a singularly perturbed dynamical system.
- Abstract(参考訳): 多層ニューラルネットワークにおけるグラディエントベースの学習は、多くの印象的な特徴を示している。
特に, 大規模なバッチを平均化しても, 経験的リスクの減少率は非モノトンである。
ほとんど進行を観測しない長い台地は、急激な減少の間隔で交互に変化する。
これらの連続した学習段階は、しばしば非常に異なる時間スケールで起こる。
最後に、初期の段階で学習されるモデルは、通常「シンプル」または「より学習しやすい」であるが、形式化するのは困難である。
これらの現象に関する理論的な説明は前進しているが、それぞれが特定の特定の状況下で捉えている。
本稿では,1次元モデルに基づいてデータを分散する場合(すなわち,目的関数は共変数の1次元投影に依存する)に,広い2層ニューラルネットワークの高次元勾配流れのダイナミクスについて検討する。
厳密な結果、非厳密な数学的導出、数値シミュレーションの混合に基づき、この設定における学習力学のシナリオを提案する。
特に、提案された進化は、時間スケールと断続性の分離を示す。
これらの挙動は、個体群勾配の流れが特異な摂動力学系として再キャストされるため自然に生じる。
関連論文リスト
- Gradient-free training of recurrent neural networks [3.272216546040443]
本稿では,勾配に基づく手法を使わずに再帰型ニューラルネットワークの重みとバイアスを全て構成する計算手法を提案する。
このアプローチは、動的システムに対するランダムな特徴ネットワークとクープマン作用素理論の組み合わせに基づいている。
時系列の計算実験,カオス力学系の予測,制御問題などにおいて,構築したリカレントニューラルネットワークのトレーニング時間と予測精度が向上することが観察された。
論文 参考訳(メタデータ) (2024-10-30T21:24:34Z) - Learning the Evolutionary and Multi-scale Graph Structure for
Multivariate Time Series Forecasting [50.901984244738806]
時系列の進化的・マルチスケール相互作用をモデル化する方法を示す。
特に、まず、拡張畳み込みと協調して、スケール固有の相関を捉える階層グラフ構造を提供する。
最終的な予測を得るために上記のコンポーネントを統合するために、統合ニューラルネットワークが提供される。
論文 参考訳(メタデータ) (2022-06-28T08:11:12Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - Neural ODE Processes [64.10282200111983]
NDP(Neural ODE Process)は、Neural ODEの分布によって決定される新しいプロセスクラスである。
我々のモデルは,少数のデータポイントから低次元システムのダイナミクスを捉えることができることを示す。
論文 参考訳(メタデータ) (2021-03-23T09:32:06Z) - Early Stopping in Deep Networks: Double Descent and How to Eliminate it [30.61588337557343]
ネットワークの異なる部分が異なるエポックで学習されるため、エポックワイズな二重降下が発生することを示す。
本研究では,2つの標準畳み込みネットワークを実証的に検討し,異なる階層の段差調整によるエポックな二重降下の除去が早期停止性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T13:43:33Z) - Plateau Phenomenon in Gradient Descent Training of ReLU networks:
Explanation, Quantification and Avoidance [0.0]
一般に、ニューラルネットワークは勾配型最適化法によって訓練される。
トレーニング開始時に損失関数は急速に低下するが,比較的少数のステップの後に著しく低下する。
本研究の目的は,高原現象の根本原因の同定と定量化である。
論文 参考訳(メタデータ) (2020-07-14T17:33:26Z) - Liquid Time-constant Networks [117.57116214802504]
本稿では,時間連続リカレントニューラルネットワークモデルについて紹介する。
暗黙の非線形性によって学習システムの力学を宣言する代わりに、線形一階力学系のネットワークを構築する。
これらのニューラルネットワークは安定かつ有界な振る舞いを示し、ニューラル常微分方程式の族の中で優れた表現性をもたらす。
論文 参考訳(メタデータ) (2020-06-08T09:53:35Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。