論文の概要: When and how epochwise double descent happens
- arxiv url: http://arxiv.org/abs/2108.12006v1
- Date: Thu, 26 Aug 2021 19:19:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 22:37:50.367715
- Title: When and how epochwise double descent happens
- Title(参考訳): いつ、どのようにして2重降臨が起こるか
- Authors: Cory Stephenson, Tyler Lee
- Abstract要約: 急激な二重降下効果は、一般化誤差が最初は減少し、その後上昇し、最終的にトレーニング時間の増加とともに再び低下する。
このことは、訓練に要する時間の長さが長く、検証性能に基づく早期停止が準最適一般化をもたらすという現実的な問題である。
本研究は, 急激な二重降下は騒音発生に要するが, 第2の臨界騒音レベル以上の早期停止は有効であることを示す。
- 参考スコア(独自算出の注目度): 7.512375012141203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks are known to exhibit a `double descent' behavior as the
number of parameters increases. Recently, it has also been shown that an
`epochwise double descent' effect exists in which the generalization error
initially drops, then rises, and finally drops again with increasing training
time. This presents a practical problem in that the amount of time required for
training is long, and early stopping based on validation performance may result
in suboptimal generalization. In this work we develop an analytically tractable
model of epochwise double descent that allows us to characterise theoretically
when this effect is likely to occur. This model is based on the hypothesis that
the training data contains features that are slow to learn but informative. We
then show experimentally that deep neural networks behave similarly to our
theoretical model. Our findings indicate that epochwise double descent requires
a critical amount of noise to occur, but above a second critical noise level
early stopping remains effective. Using insights from theory, we give two
methods by which epochwise double descent can be removed: one that removes slow
to learn features from the input and reduces generalization performance, and
another that instead modifies the training dynamics and matches or exceeds the
generalization performance of standard training. Taken together, our results
suggest a new picture of how epochwise double descent emerges from the
interplay between the dynamics of training and noise in the training data.
- Abstract(参考訳): ディープニューラルネットワークは、パラメータ数の増加に伴って‘ダブル降下’の振る舞いを示すことが知られている。
近年,一般化誤差が最初は低下し,その後上昇し,トレーニング時間の増加とともに再び低下する,'epochwise double descent'効果が存在することが示されている。
これは,訓練に要する時間の長さが長く,検証性能に基づく早期停止が準最適一般化をもたらすという現実的な問題である。
本研究は, 理論的にこの効果が起こりそうな時期を特徴付けるために, エポックワイズ二重降下解析可能なモデルを構築した。
このモデルは、トレーニングデータが学習が遅いが情報的でない特徴を含んでいるという仮説に基づいている。
次に、ディープニューラルネットワークが理論モデルと同様に振る舞うことを実験的に示す。
以上の結果から,epochwise二重降下は致命的なノイズ量を必要とするが,第2臨界騒音レベル以上では早期停止が有効であることが示された。
理論からの洞察を用いて、入力から特徴の学習を遅くし、一般化性能を低下させる方法と、標準訓練の一般化性能に適合する、あるいは超越する2つの方法を与える。
その結果,訓練データにおける学習のダイナミクスと雑音の相互作用から,エポックワイズな二元降がいかに出現するか,新たな知見が得られた。
関連論文リスト
- Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Benign Overfitting in Two-layer Convolutional Neural Networks [90.75603889605043]
2層畳み込みニューラルネットワーク(CNN)の訓練における良性過剰適合現象の検討
信号対雑音比が一定の条件を満たすと、勾配降下により訓練された2層CNNが任意に小さな訓練と試験損失を達成できることを示す。
一方、この条件が保たない場合、オーバーフィッティングは有害となり、得られたCNNは一定レベルのテスト損失しか達成できない。
論文 参考訳(メタデータ) (2022-02-14T07:45:51Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Double Descent Optimization Pattern and Aliasing: Caveats of Noisy
Labels [1.4424394176890545]
この研究は、小さなデータセットとノイズラベルで二重降下が発生することを確認した。
学習率の増大は、二重降下パターンを抑えることなく隠蔽するアナライザー効果を生じさせることを示した。
本研究は,脳波連続記録によるてんかん患者の事象の予測を現実の応用に翻訳したことを示す。
論文 参考訳(メタデータ) (2021-06-03T19:41:40Z) - Early Stopping in Deep Networks: Double Descent and How to Eliminate it [30.61588337557343]
ネットワークの異なる部分が異なるエポックで学習されるため、エポックワイズな二重降下が発生することを示す。
本研究では,2つの標準畳み込みネットワークを実証的に検討し,異なる階層の段差調整によるエポックな二重降下の除去が早期停止性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T13:43:33Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z) - Overfitting in adversarially robust deep learning [86.11788847990783]
トレーニングセットへの過度な適合は、実際には、逆向きの堅牢なトレーニングにおいて、非常に大きなロバストなパフォーマンスを損なうことを示す。
また, 2重降下曲線のような効果は, 逆向きに訓練されたモデルでもまだ起こるが, 観測された過度なオーバーフィッティングを説明できないことを示す。
論文 参考訳(メタデータ) (2020-02-26T15:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。