論文の概要: Early Stopping in Deep Networks: Double Descent and How to Eliminate it
- arxiv url: http://arxiv.org/abs/2007.10099v2
- Date: Sat, 19 Sep 2020 22:21:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 12:46:44.048702
- Title: Early Stopping in Deep Networks: Double Descent and How to Eliminate it
- Title(参考訳): ディープネットワークの早期停止:二重降下と排除方法
- Authors: Reinhard Heckel and Fatih Furkan Yilmaz
- Abstract要約: ネットワークの異なる部分が異なるエポックで学習されるため、エポックワイズな二重降下が発生することを示す。
本研究では,2つの標準畳み込みネットワークを実証的に検討し,異なる階層の段差調整によるエポックな二重降下の除去が早期停止性能を著しく向上させることを示す。
- 参考スコア(独自算出の注目度): 30.61588337557343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over-parameterized models, such as large deep networks, often exhibit a
double descent phenomenon, whereas a function of model size, error first
decreases, increases, and decreases at last. This intriguing double descent
behavior also occurs as a function of training epochs and has been conjectured
to arise because training epochs control the model complexity. In this paper,
we show that such epoch-wise double descent arises for a different reason: It
is caused by a superposition of two or more bias-variance tradeoffs that arise
because different parts of the network are learned at different epochs, and
eliminating this by proper scaling of stepsizes can significantly improve the
early stopping performance. We show this analytically for i) linear regression,
where differently scaled features give rise to a superposition of bias-variance
tradeoffs, and for ii) a two-layer neural network, where the first and second
layer each govern a bias-variance tradeoff. Inspired by this theory, we study
two standard convolutional networks empirically and show that eliminating
epoch-wise double descent through adjusting stepsizes of different layers
improves the early stopping performance significantly.
- Abstract(参考訳): 大きな深層ネットワークのような過度パラメータ化されたモデルはしばしば二重降下現象を示すが、モデルサイズ、エラーの最初の関数は減少し、最後に減少する。
この興味深い二重降下行動は、トレーニング時代の機能としても起こり、トレーニング時代がモデルの複雑さを制御するために生じると推測されている。
本稿では, ネットワークの異なる部分が異なるエポックで学習されることから生じる2つ以上のバイアス分散トレードオフの重畳が原因であり, ステップサイズを適切にスケールすることでこれを排除することで, 早期停止性能を著しく向上させることができることを示す。
これを分析的に示す
一 異なるスケールされた特徴がバイアス分散トレードオフの重なりを生じさせる線形回帰
二 第一層及び第二層がそれぞれバイアス分散トレードオフを管理する二層ニューラルネットワーク。
この理論に触発されて、2つの標準畳み込みネットワークを実証的に研究し、異なる層の段差調整によるエポックな二重降下の除去が早期停止性能を著しく向上させることを示した。
関連論文リスト
- Towards understanding epoch-wise double descent in two-layer linear neural networks [11.210628847081097]
2層線形ニューラルネットワークにおけるエポックワイズ二重降下について検討した。
余剰モデル層で出現するエポックな2重降下の要因を同定した。
これは真に深いモデルに対するエポックワイズ二重降下の未同定因子に関するさらなる疑問を提起する。
論文 参考訳(メタデータ) (2024-07-13T10:45:21Z) - Understanding the Double Descent Phenomenon in Deep Learning [49.1574468325115]
このチュートリアルは、古典的な統計学習の枠組みを設定し、二重降下現象を導入する。
いくつかの例を見て、セクション2では、二重降下において重要な役割を果たすと思われる帰納的バイアスを導入している。
第3節は2つの線形モデルで二重降下を探索し、最近の関連する研究から他の視点を提供する。
論文 参考訳(メタデータ) (2024-03-15T16:51:24Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Learning time-scales in two-layers neural networks [11.878594839685471]
高次元の広層ニューラルネットワークの勾配流れのダイナミクスについて検討する。
新たな厳密な結果に基づいて,この環境下での学習力学のシナリオを提案する。
論文 参考訳(メタデータ) (2023-02-28T19:52:26Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Regularization-wise double descent: Why it occurs and how to eliminate
it [30.61588337557343]
正規化強度の関数として, 明示的なL2正規化モデルのリスクが二重降下挙動を示すことを示す。
本研究では,2層ニューラルネットワークについて検討し,第1層と第2層の正則化強度を調整することにより,二重降下を除去できることを示す。
論文 参考訳(メタデータ) (2022-06-03T03:23:58Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - When and how epochwise double descent happens [7.512375012141203]
急激な二重降下効果は、一般化誤差が最初は減少し、その後上昇し、最終的にトレーニング時間の増加とともに再び低下する。
このことは、訓練に要する時間の長さが長く、検証性能に基づく早期停止が準最適一般化をもたらすという現実的な問題である。
本研究は, 急激な二重降下は騒音発生に要するが, 第2の臨界騒音レベル以上の早期停止は有効であることを示す。
論文 参考訳(メタデータ) (2021-08-26T19:19:17Z) - Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。
そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文 参考訳(メタデータ) (2021-06-03T09:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。