論文の概要: Multi-scale Feature Learning Dynamics: Insights for Double Descent
- arxiv url: http://arxiv.org/abs/2112.03215v1
- Date: Mon, 6 Dec 2021 18:17:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 14:28:41.081202
- Title: Multi-scale Feature Learning Dynamics: Insights for Double Descent
- Title(参考訳): マルチスケール機能学習ダイナミクス:二重降下に対する洞察
- Authors: Mohammad Pezeshki, Amartya Mitra, Yoshua Bengio, Guillaume Lajoie
- Abstract要約: 一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
- 参考スコア(独自算出の注目度): 71.91871020059857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key challenge in building theoretical foundations for deep learning is the
complex optimization dynamics of neural networks, resulting from the
high-dimensional interactions between the large number of network parameters.
Such non-trivial dynamics lead to intriguing behaviors such as the phenomenon
of "double descent" of the generalization error. The more commonly studied
aspect of this phenomenon corresponds to model-wise double descent where the
test error exhibits a second descent with increasing model complexity, beyond
the classical U-shaped error curve. In this work, we investigate the origins of
the less studied epoch-wise double descent in which the test error undergoes
two non-monotonous transitions, or descents as the training time increases. By
leveraging tools from statistical physics, we study a linear teacher-student
setup exhibiting epoch-wise double descent similar to that in deep neural
networks. In this setting, we derive closed-form analytical expressions for the
evolution of generalization error over training. We find that double descent
can be attributed to distinct features being learned at different scales: as
fast-learning features overfit, slower-learning features start to fit,
resulting in a second descent in test error. We validate our findings through
numerical experiments where our theory accurately predicts empirical findings
and remains consistent with observations in deep neural networks.
- Abstract(参考訳): ディープラーニングの理論的基盤を構築する上で重要な課題は、多数のネットワークパラメータ間の高次元相互作用から生じる、ニューラルネットワークの複雑な最適化ダイナミクスである。
そのような非自明な力学は一般化誤差の「二重降下」現象のような興味深い挙動を引き起こす。
この現象のよりよく研究される側面は、古典的なU字型誤差曲線を超えて、テスト誤差がモデル複雑性を増大させる2番目の降下を示すモデルワイド二重降下に対応する。
本研究では, 試験誤差が2つの非単調な遷移, あるいはトレーニング時間の増加に伴う降下を経験する, 未研究のエポジカルな二重降下の起源について検討する。
統計物理学からのツールを活用することにより、深層ニューラルネットワークと同様のエポックな二重降下を示す線形教師学生設定について検討する。
この設定では、トレーニングによる一般化誤差の進化に対する閉形式解析式を導出する。
高速学習の機能が過度に適合するにつれて、遅い学習の機能が適合し始め、結果としてテストエラーの第2の降下が発生します。
実験では,実験結果を正確に予測し,深層ニューラルネットワークの観測結果と一致し,実験結果の検証を行った。
関連論文リスト
- Towards understanding epoch-wise double descent in two-layer linear neural networks [11.210628847081097]
2層線形ニューラルネットワークにおけるエポックワイズ二重降下について検討した。
余剰モデル層で出現するエポックな2重降下の要因を同定した。
これは真に深いモデルに対するエポックワイズ二重降下の未同定因子に関するさらなる疑問を提起する。
論文 参考訳(メタデータ) (2024-07-13T10:45:21Z) - Understanding the Double Descent Phenomenon in Deep Learning [49.1574468325115]
このチュートリアルは、古典的な統計学習の枠組みを設定し、二重降下現象を導入する。
いくつかの例を見て、セクション2では、二重降下において重要な役割を果たすと思われる帰納的バイアスを導入している。
第3節は2つの線形モデルで二重降下を探索し、最近の関連する研究から他の視点を提供する。
論文 参考訳(メタデータ) (2024-03-15T16:51:24Z) - The twin peaks of learning neural networks [3.382017614888546]
近年の研究では、ニューラルネットワークの一般化誤差に対する二重発光現象の存在が示されている。
この現象とニューラルネットワークで表される関数の複雑さと感度の増大との関係について検討する。
論文 参考訳(メタデータ) (2024-01-23T10:09:14Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Double Descent Demystified: Identifying, Interpreting & Ablating the
Sources of a Deep Learning Puzzle [12.00962791565144]
二重降下は機械学習の驚くべき現象である。
データ数に対してモデルパラメータの数が増加するにつれて、テストエラーは減少する。
論文 参考訳(メタデータ) (2023-03-24T17:03:40Z) - Learning time-scales in two-layers neural networks [11.878594839685471]
高次元の広層ニューラルネットワークの勾配流れのダイナミクスについて検討する。
新たな厳密な結果に基づいて,この環境下での学習力学のシナリオを提案する。
論文 参考訳(メタデータ) (2023-02-28T19:52:26Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。
そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文 参考訳(メタデータ) (2021-06-03T09:34:17Z) - Early Stopping in Deep Networks: Double Descent and How to Eliminate it [30.61588337557343]
ネットワークの異なる部分が異なるエポックで学習されるため、エポックワイズな二重降下が発生することを示す。
本研究では,2つの標準畳み込みネットワークを実証的に検討し,異なる階層の段差調整によるエポックな二重降下の除去が早期停止性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T13:43:33Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。