論文の概要: Dropout Reduces Underfitting
- arxiv url: http://arxiv.org/abs/2303.01500v2
- Date: Wed, 31 May 2023 17:47:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 20:35:15.259714
- Title: Dropout Reduces Underfitting
- Title(参考訳): ドロップアウトは不適合を減らす
- Authors: Zhuang Liu, Zhiqiu Xu, Joseph Jin, Zhiqiang Shen, Trevor Darrell
- Abstract要約: 本研究は,トレーニング開始時の不適合を軽減できることを示す。
ドロップアウトは、ミニバッチ間の勾配の方向性のばらつきを低減し、データセット全体の勾配とミニバッチ勾配の整合を支援する。
この結果から,未適合モデルの性能向上のためのソリューションが得られた – 早期のドロップアウト – トレーニングの初期段階でのみドロップアウトが適用され,その後,オフになります。
- 参考スコア(独自算出の注目度): 85.61466286688385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Introduced by Hinton et al. in 2012, dropout has stood the test of time as a
regularizer for preventing overfitting in neural networks. In this study, we
demonstrate that dropout can also mitigate underfitting when used at the start
of training. During the early phase, we find dropout reduces the directional
variance of gradients across mini-batches and helps align the mini-batch
gradients with the entire dataset's gradient. This helps counteract the
stochasticity of SGD and limit the influence of individual batches on model
training. Our findings lead us to a solution for improving performance in
underfitting models - early dropout: dropout is applied only during the initial
phases of training, and turned off afterwards. Models equipped with early
dropout achieve lower final training loss compared to their counterparts
without dropout. Additionally, we explore a symmetric technique for
regularizing overfitting models - late dropout, where dropout is not used in
the early iterations and is only activated later in training. Experiments on
ImageNet and various vision tasks demonstrate that our methods consistently
improve generalization accuracy. Our results encourage more research on
understanding regularization in deep learning and our methods can be useful
tools for future neural network training, especially in the era of large data.
Code is available at https://github.com/facebookresearch/dropout.
- Abstract(参考訳): hintonらによって2012年に紹介されたdropoutは、ニューラルネットワークの過剰フィッティングを防ぐためのレギュレータとして、時間テストに耐えてきた。
本研究では,トレーニング開始時に使用した場合,ドロップアウトが不適合を軽減できることを実証する。
初期段階では、ドロップアウトはミニバッチ間の勾配の方向分散を減少させ、データセット全体の勾配とミニバッチ勾配の整合を支援する。
これにより、SGDの確率性に反し、個々のバッチがモデルトレーニングに与える影響を制限することができる。
この結果から,未適合モデルの性能向上のためのソリューションが得られた – 早期のドロップアウト – トレーニングの初期段階でのみドロップアウトが適用され,その後,オフになります。
早期ドロップアウトを備えたモデルは、ドロップアウトのないモデルに比べて最終トレーニング損失が低い。
さらに、オーバーフィッティングモデルの正則化のための対称的手法として、早期イテレーションではドロップアウトが使用されず、トレーニングの後半でのみアクティブになる、レイトドロップアウトについて検討する。
ImageNetと様々な視覚タスクの実験は,我々の手法が常に一般化精度を向上していることを示す。
その結果,深層学習における正規化の理解に関するさらなる研究が促進され,特に大規模データの時代において,今後のニューラルネットワークトレーニングに有用な手法となることが期待される。
コードはhttps://github.com/facebookresearch/dropoutで入手できる。
関連論文リスト
- A Negative Result on Gradient Matching for Selective Backprop [8.463693396893731]
ディープニューラルネットワークのトレーニングは、膨大な計算負荷になる。
トレーニングプロセスをスピードアップする1つのアプローチはSelective Backpropである。
我々は、ミニバッチ全体の平均勾配に最もよく一致する(重み付けされた)サブセットを選択することで、このアプローチを構築します。
損失ベースと勾配マッチング戦略の両方が、ランダムなベースラインを一貫して上回りません。
論文 参考訳(メタデータ) (2023-12-08T13:03:10Z) - Relearning Forgotten Knowledge: on Forgetting, Overfit and Training-Free
Ensembles of DNNs [9.010643838773477]
本稿では,検証データ上での深層モデルの忘れ度をモニタする,過剰適合度定量化のための新しいスコアを提案する。
オーバーフィットは検証精度を低下させることなく発生しうることを示し,従来よりも一般的である可能性が示唆された。
我々は,1つのネットワークのトレーニング履歴のみに基づいて,新たなアンサンブル法を構築するために,我々の観測結果を用いて,トレーニング時間に追加のコストを要さず,大幅な改善を実現する。
論文 参考訳(メタデータ) (2023-10-17T09:22:22Z) - Implicit regularization of dropout [3.42658286826597]
一般的な正規化手法であるドロップアウトが、ニューラルネットワークトレーニング中に優れた一般化ソリューションを実現するのにどのように役立つかを理解することが重要である。
本研究では,一連の実験によって検証されたドロップアウトの暗黙の正則化の理論的導出について述べる。
降下によるトレーニングは、標準勾配降下訓練と比較して、より平坦な最小限のニューラルネットワークに導かれることを実験的に見出した。
論文 参考訳(メタデータ) (2022-07-13T04:09:14Z) - Neuron-Specific Dropout: A Deterministic Regularization Technique to
Prevent Neural Networks from Overfitting & Reduce Dependence on Large
Training Samples [0.0]
NSDropoutは、モデルのレイヤのトレーニングパスとバリデーションパスの両方を調べます。
データセット内の各クラスのニューロンが生成する平均値を比較することで、ネットワークはターゲットユニットをドロップすることができる。
レイヤは、バリデーションからサンプルを見る際に存在しない、テスト中にモデルが見ている機能やノイズを予測することができる。
論文 参考訳(メタデータ) (2022-01-13T13:10:30Z) - Mixing between the Cross Entropy and the Expectation Loss Terms [89.30385901335323]
クロスエントロピー損失は、トレーニング中にサンプルを分類するのが難しくなる傾向にある。
最適化目標に期待損失を加えることで,ネットワークの精度が向上することを示す。
実験により,新しいトレーニングプロトコルにより,多様な分類領域における性能が向上することが示された。
論文 参考訳(メタデータ) (2021-09-12T23:14:06Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Advanced Dropout: A Model-free Methodology for Bayesian Dropout
Optimization [62.8384110757689]
ディープニューラルネットワーク(DNN)の現実的応用において、ユビキタスなオーバーフィッティングが存在する
先進的なドロップアウト手法は、パラメトリック先行でモデルフリーで容易に実装された分布を適用し、ドロップアウト率を適応的に調整する。
7つのコンピュータビジョンデータセットにおける9つのドロップアウト手法に対する高度なドロップアウトの有効性を評価する。
論文 参考訳(メタデータ) (2020-10-11T13:19:58Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Do We Need Zero Training Loss After Achieving Zero Training Error? [76.44358201918156]
本研究では,遠心分離法(Emphflooding)と呼ばれる直接解法を提案する。
本研究では, 浸水により性能が向上し, 副産物として, 試験損失の2重降下曲線が誘導されることを実験的に示す。
論文 参考訳(メタデータ) (2020-02-20T12:50:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。