論文の概要: Double Descent Optimization Pattern and Aliasing: Caveats of Noisy
Labels
- arxiv url: http://arxiv.org/abs/2106.02100v1
- Date: Thu, 3 Jun 2021 19:41:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 14:59:40.537902
- Title: Double Descent Optimization Pattern and Aliasing: Caveats of Noisy
Labels
- Title(参考訳): 二重発振最適化パターンとエイリアス:雑音ラベルのキャベツ
- Authors: Florian Dubost, Khaled Kamal Saab, Erin Hong, Daniel Yang Fu, Max
Pike, Siddharth Sharma, Siyi Tang, Nandita Bhaskhar, Christopher Lee-Messer,
Daniel Rubin
- Abstract要約: この研究は、小さなデータセットとノイズラベルで二重降下が発生することを確認した。
学習率の増大は、二重降下パターンを抑えることなく隠蔽するアナライザー効果を生じさせることを示した。
本研究は,脳波連続記録によるてんかん患者の事象の予測を現実の応用に翻訳したことを示す。
- 参考スコア(独自算出の注目度): 1.4424394176890545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimization plays a key role in the training of deep neural networks.
Deciding when to stop training can have a substantial impact on the performance
of the network during inference. Under certain conditions, the generalization
error can display a double descent pattern during training: the learning curve
is non-monotonic and seemingly diverges before converging again after
additional epochs. This optimization pattern can lead to early stopping
procedures to stop training before the second convergence and consequently
select a suboptimal set of parameters for the network, with worse performance
during inference. In this work, in addition to confirming that double descent
occurs with small datasets and noisy labels as evidenced by others, we show
that noisy labels must be present both in the training and generalization sets
to observe a double descent pattern. We also show that the learning rate has an
influence on double descent, and study how different optimizers and optimizer
parameters influence the apparition of double descent. Finally, we show that
increasing the learning rate can create an aliasing effect that masks the
double descent pattern without suppressing it. We study this phenomenon through
extensive experiments on variants of CIFAR-10 and show that they translate to a
real world application: the forecast of seizure events in epileptic patients
from continuous electroencephalographic recordings.
- Abstract(参考訳): 最適化はディープニューラルネットワークのトレーニングにおいて重要な役割を果たす。
トレーニングをやめるタイミングの決定は、推論中のネットワークのパフォーマンスに大きな影響を与える可能性がある。
ある条件下では、一般化誤差はトレーニング中に二重降下パターンを表示することができる:学習曲線は単調ではなく、追加のエポックの後に再び収束する前に発散するように見える。
この最適化パターンは、第2の収束前にトレーニングを停止する早期停止手順につながり、結果としてネットワークのパラメータのサブ最適セットを選択でき、推論中にパフォーマンスが低下する。
本研究は,小データセットと雑音ラベルで二重降下が生じることの確認に加えて,二重降下パターンを観察するためには,トレーニングと一般化セットの両方にノイズラベルが存在する必要があることを示す。
また、学習速度が二重降下に影響を与えることを示し、異なる最適化パラメータと最適化パラメータが二重降下の出現に与える影響について検討した。
最後に,学習率の上昇は,二重降下パターンを抑制せずに隠蔽するエイリアス効果をもたらすことを示した。
我々はCIFAR-10の変種に関する広範な実験を通じてこの現象を研究し、それらが現実世界に応用されることを示す:脳波連続記録によるてんかん患者の発作発生の予測。
関連論文リスト
- The Epochal Sawtooth Effect: Unveiling Training Loss Oscillations in Adam and Other Optimizers [8.770864706004472]
テキストEpochal Sawtooth Effect (ESE) と呼ばれる繰り返し学習損失パターンを特定し解析する。
このパターンは、各エポックの始めに急激な損失が減少し、その後徐々に増加し、ソートゥース状の損失曲線が生じる。
Epochal Sawtooth 効果に繋がるメカニズムの詳細な説明を提供する。
論文 参考訳(メタデータ) (2024-10-14T00:51:21Z) - Understanding the Role of Optimization in Double Descent [8.010193718024347]
本稿では、なぜ二重降下が弱いか、全く起こらないのかを簡単な最適化ベースで説明する。
我々の知る限りでは、モデルワイドの二重降下に寄与する多くの異なる要因が最適化の観点から統一されていることを最初に示す。
現実の機械学習のセットアップでは、二重降下が問題になる可能性は低い。
論文 参考訳(メタデータ) (2023-12-06T23:29:00Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Deep Double Descent via Smooth Interpolation [2.141079906482723]
我々は、各トレーニングポイントに局所的な入力変数に対する損失ランドスケープw.r.t.を研究することにより、トレーニングデータの適合性の鋭さを定量化する。
以上の結果から,入力空間における損失のシャープネスは,モデル・アンド・エポシカルな2重降下に追随することが明らかとなった。
小さな補間モデルはクリーンデータとノイズデータの両方に強く適合するが、大きな補間モデルは既存の直観とは対照的にスムーズなロスランドスケープを表現している。
論文 参考訳(メタデータ) (2022-09-21T02:46:13Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - When and how epochwise double descent happens [7.512375012141203]
急激な二重降下効果は、一般化誤差が最初は減少し、その後上昇し、最終的にトレーニング時間の増加とともに再び低下する。
このことは、訓練に要する時間の長さが長く、検証性能に基づく早期停止が準最適一般化をもたらすという現実的な問題である。
本研究は, 急激な二重降下は騒音発生に要するが, 第2の臨界騒音レベル以上の早期停止は有効であることを示す。
論文 参考訳(メタデータ) (2021-08-26T19:19:17Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Critical Parameters for Scalable Distributed Learning with Large Batches
and Asynchronous Updates [67.19481956584465]
飽和を伴う分散トレーニング(SGD)の効率は、バッチサイズと、実装における停滞に決定的に依存することが実験的に観察されている。
結果がタイトであることを示し、数値実験で重要な結果を示しています。
論文 参考訳(メタデータ) (2021-03-03T12:08:23Z) - Early Stopping in Deep Networks: Double Descent and How to Eliminate it [30.61588337557343]
ネットワークの異なる部分が異なるエポックで学習されるため、エポックワイズな二重降下が発生することを示す。
本研究では,2つの標準畳み込みネットワークを実証的に検討し,異なる階層の段差調整によるエポックな二重降下の除去が早期停止性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T13:43:33Z) - Overfitting in adversarially robust deep learning [86.11788847990783]
トレーニングセットへの過度な適合は、実際には、逆向きの堅牢なトレーニングにおいて、非常に大きなロバストなパフォーマンスを損なうことを示す。
また, 2重降下曲線のような効果は, 逆向きに訓練されたモデルでもまだ起こるが, 観測された過度なオーバーフィッティングを説明できないことを示す。
論文 参考訳(メタデータ) (2020-02-26T15:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。