論文の概要: Learning time-scales in two-layers neural networks
- arxiv url: http://arxiv.org/abs/2303.00055v1
- Date: Tue, 28 Feb 2023 19:52:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 16:55:56.264954
- Title: Learning time-scales in two-layers neural networks
- Title(参考訳): 2層ニューラルネットワークにおける学習時間スケール
- Authors: Rapha\"el Berthier, Andrea Montanari, Kangjie Zhou
- Abstract要約: 高次元の広層ニューラルネットワークの勾配流れのダイナミクスについて検討する。
新たな厳密な結果に基づいて,この環境下での学習力学のシナリオを提案する。
- 参考スコア(独自算出の注目度): 8.77676564584501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient-based learning in multi-layer neural networks displays a number of
striking features. In particular, the decrease rate of empirical risk is
non-monotone even after averaging over large batches. Long plateaus in which
one observes barely any progress alternate with intervals of rapid decrease.
These successive phases of learning often take place on very different time
scales. Finally, models learnt in an early phase are typically `simpler' or
`easier to learn' although in a way that is difficult to formalize.
Although theoretical explanations of these phenomena have been put forward,
each of them captures at best certain specific regimes. In this paper, we study
the gradient flow dynamics of a wide two-layer neural network in
high-dimension, when data are distributed according to a single-index model
(i.e., the target function depends on a one-dimensional projection of the
covariates). Based on a mixture of new rigorous results, non-rigorous
mathematical derivations, and numerical simulations, we propose a scenario for
the learning dynamics in this setting. In particular, the proposed evolution
exhibits separation of timescales and intermittency. These behaviors arise
naturally because the population gradient flow can be recast as a singularly
perturbed dynamical system.
- Abstract(参考訳): 多層ニューラルネットワークにおける勾配ベースの学習には、多くの素晴らしい特徴がある。
特に, 大規模なバッチを平均化しても, 経験的リスクの減少率は非モノトンである。
ほとんど進行を観測しない長い台地は、急激な減少の間隔で交互に変化する。
これらの連続した学習段階は、しばしば非常に異なる時間スケールで起こる。
最後に、初期段階で学習されるモデルは、形式化が困難であるが、通常、'simpler' または 'easier to learn' である。
これらの現象に関する理論的な説明は前進しているが、それぞれが特定の特定の状況下で捉えている。
本稿では,広層2層ニューラルネットワークの高次元における勾配流れのダイナミクスについて,データが単一インデックスモデルに従って分布する場合(すなわち,対象関数は共変量の1次元投影に依存する)に検討する。
本研究では,新しい厳密な結果と非リゴラスな数学的導出,数値シミュレーションの混合に基づき,この設定における学習ダイナミクスのシナリオを提案する。
特に、提案された進化は時間スケールと断続性の分離を示す。
これらの挙動は、集団勾配の流れを特異な摂動力学系として再キャストできるため自然に生じる。
関連論文リスト
- Gradient-free training of recurrent neural networks [3.272216546040443]
本稿では,勾配に基づく手法を使わずに再帰型ニューラルネットワークの重みとバイアスを全て構成する計算手法を提案する。
このアプローチは、動的システムに対するランダムな特徴ネットワークとクープマン作用素理論の組み合わせに基づいている。
時系列の計算実験,カオス力学系の予測,制御問題などにおいて,構築したリカレントニューラルネットワークのトレーニング時間と予測精度が向上することが観察された。
論文 参考訳(メタデータ) (2024-10-30T21:24:34Z) - Learning the Evolutionary and Multi-scale Graph Structure for
Multivariate Time Series Forecasting [50.901984244738806]
時系列の進化的・マルチスケール相互作用をモデル化する方法を示す。
特に、まず、拡張畳み込みと協調して、スケール固有の相関を捉える階層グラフ構造を提供する。
最終的な予測を得るために上記のコンポーネントを統合するために、統合ニューラルネットワークが提供される。
論文 参考訳(メタデータ) (2022-06-28T08:11:12Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - Neural ODE Processes [64.10282200111983]
NDP(Neural ODE Process)は、Neural ODEの分布によって決定される新しいプロセスクラスである。
我々のモデルは,少数のデータポイントから低次元システムのダイナミクスを捉えることができることを示す。
論文 参考訳(メタデータ) (2021-03-23T09:32:06Z) - Early Stopping in Deep Networks: Double Descent and How to Eliminate it [30.61588337557343]
ネットワークの異なる部分が異なるエポックで学習されるため、エポックワイズな二重降下が発生することを示す。
本研究では,2つの標準畳み込みネットワークを実証的に検討し,異なる階層の段差調整によるエポックな二重降下の除去が早期停止性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T13:43:33Z) - Plateau Phenomenon in Gradient Descent Training of ReLU networks:
Explanation, Quantification and Avoidance [0.0]
一般に、ニューラルネットワークは勾配型最適化法によって訓練される。
トレーニング開始時に損失関数は急速に低下するが,比較的少数のステップの後に著しく低下する。
本研究の目的は,高原現象の根本原因の同定と定量化である。
論文 参考訳(メタデータ) (2020-07-14T17:33:26Z) - Liquid Time-constant Networks [117.57116214802504]
本稿では,時間連続リカレントニューラルネットワークモデルについて紹介する。
暗黙の非線形性によって学習システムの力学を宣言する代わりに、線形一階力学系のネットワークを構築する。
これらのニューラルネットワークは安定かつ有界な振る舞いを示し、ニューラル常微分方程式の族の中で優れた表現性をもたらす。
論文 参考訳(メタデータ) (2020-06-08T09:53:35Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。