Fugu-MT 論文翻訳(概要): Dropout Reduces Underfitting

論文の概要: Dropout Reduces Underfitting

arxiv url: http://arxiv.org/abs/2303.01500v1
Date: Thu, 2 Mar 2023 18:59:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-03 12:50:17.254120
Title: Dropout Reduces Underfitting
Title（参考訳）: ドロップアウトは不適合を減らす
Authors: Zhuang Liu, Zhiqiu Xu, Joseph Jin, Zhiqiang Shen, Trevor Darrell
Abstract要約: 本研究は,トレーニング開始時の不適合を軽減できることを示す。ドロップアウトは、ミニバッチ間の勾配の方向性のばらつきを低減し、データセット全体の勾配とミニバッチ勾配の整合を支援する。この結果は、ディープラーニングにおける正規化の理解に関するさらなる研究を奨励し、我々の手法は将来のニューラルネットワークトレーニングに有用なツールとなり得る。
参考スコア（独自算出の注目度）: 85.61466286688385
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Introduced by Hinton et al. in 2012, dropout has stood the test of time as a regularizer for preventing overfitting in neural networks. In this study, we demonstrate that dropout can also mitigate underfitting when used at the start of training. During the early phase, we find dropout reduces the directional variance of gradients across mini-batches and helps align the mini-batch gradients with the entire dataset's gradient. This helps counteract the stochasticity of SGD and limit the influence of individual batches on model training. Our findings lead us to a solution for improving performance in underfitting models - early dropout: dropout is applied only during the initial phases of training, and turned off afterwards. Models equipped with early dropout achieve lower final training loss compared to their counterparts without dropout. Additionally, we explore a symmetric technique for regularizing overfitting models - late dropout, where dropout is not used in the early iterations and is only activated later in training. Experiments on ImageNet and various vision tasks demonstrate that our methods consistently improve generalization accuracy. Our results encourage more research on understanding regularization in deep learning and our methods can be useful tools for future neural network training, especially in the era of large data. Code is available at https://github.com/facebookresearch/dropout .
Abstract（参考訳）: hintonらによって2012年に紹介されたdropoutは、ニューラルネットワークの過剰フィッティングを防ぐためのレギュレータとして、時間テストに耐えてきた。本研究では,トレーニング開始時に使用した場合,ドロップアウトが不適合を軽減できることを実証する。初期段階では、ドロップアウトはミニバッチ間の勾配の方向分散を減少させ、データセット全体の勾配とミニバッチ勾配の整合を支援する。これにより、SGDの確率性に反し、個々のバッチがモデルトレーニングに与える影響を制限することができる。この結果から,未適合モデルの性能向上のためのソリューションが得られた – 早期のドロップアウト – トレーニングの初期段階でのみドロップアウトが適用され,その後,オフになります。早期ドロップアウトを備えたモデルは、ドロップアウトのないモデルに比べて最終トレーニング損失が低い。さらに、オーバーフィッティングモデルの正則化のための対称的手法として、早期イテレーションではドロップアウトが使用されず、トレーニングの後半でのみアクティブになる、レイトドロップアウトについて検討する。 ImageNetと様々な視覚タスクの実験は,我々の手法が常に一般化精度を向上していることを示す。その結果,深層学習における正規化の理解に関するさらなる研究が促進され,特に大規模データの時代において,今後のニューラルネットワークトレーニングに有用な手法となることが期待される。コードはhttps://github.com/facebookresearch/dropoutで入手できる。

関連論文リスト

Drop Dropout on Single-Epoch Language Model Pretraining [30.63248848082757]
現代のLLMに共通する単一エポックな事前訓練タスクは、最小限のオーバーフィッティングをもたらす。 LMプレトレーニングにおけるドロップアウトの役割について、徹底的な実証研究は行われていない。言語モデリング,モーコシンタクス(BLiMP),質問応答(SQuAD),自然言語推論(MNLI)のダウンストリーム性能は,事前トレーニング中にドロップアウトを適用しない場合に向上する。
論文参考訳（メタデータ） (2025-05-30T16:48:38Z)
Instance-dependent Early Stopping [57.912273923450726]
本稿では,早期停止機構をトレーニングセット全体からインスタンスレベルに適応させる,インスタンス依存早期停止(IES)手法を提案する。 IES は、損失値の2階差が 0 付近の小さな範囲に留まっている場合、インスタンスをマスタードとみなす。 IESは、モデルのテスト精度と転送学習性能を維持したり、わずかに改善したりしながら、バックプロパゲーションインスタンスを10%から50%削減することができる。
論文参考訳（メタデータ） (2025-02-11T13:34:09Z)
Upweighting Easy Samples in Fine-Tuning Mitigates Forgetting [15.251425165987987]
下流タスクで事前訓練されたモデルを微調整すると、元の能力は劣化することが多い。本稿では,事前学習したモデルの損失に基づく微調整データのサンプル重み付け手法を提案する。我々は,言語と視覚の両方における手法の有効性を実証的に実証した。
論文参考訳（メタデータ） (2025-02-05T00:49:59Z)
A Negative Result on Gradient Matching for Selective Backprop [8.463693396893731]
ディープニューラルネットワークのトレーニングは、膨大な計算負荷になる。トレーニングプロセスをスピードアップする1つのアプローチはSelective Backpropである。我々は、ミニバッチ全体の平均勾配に最もよく一致する(重み付けされた)サブセットを選択することで、このアプローチを構築します。損失ベースと勾配マッチング戦略の両方が、ランダムなベースラインを一貫して上回りません。
論文参考訳（メタデータ） (2023-12-08T13:03:10Z)
Relearning Forgotten Knowledge: on Forgetting, Overfit and Training-Free Ensembles of DNNs [9.010643838773477]
本稿では,検証データ上での深層モデルの忘れ度をモニタする,過剰適合度定量化のための新しいスコアを提案する。オーバーフィットは検証精度を低下させることなく発生しうることを示し,従来よりも一般的である可能性が示唆された。我々は,1つのネットワークのトレーニング履歴のみに基づいて,新たなアンサンブル法を構築するために,我々の観測結果を用いて,トレーニング時間に追加のコストを要さず,大幅な改善を実現する。
論文参考訳（メタデータ） (2023-10-17T09:22:22Z)
Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文参考訳（メタデータ） (2022-09-30T15:15:05Z)
Implicit regularization of dropout [3.42658286826597]
一般的な正規化手法であるドロップアウトが、ニューラルネットワークトレーニング中に優れた一般化ソリューションを実現するのにどのように役立つかを理解することが重要である。本研究では,一連の実験によって検証されたドロップアウトの暗黙の正則化の理論的導出について述べる。降下によるトレーニングは、標準勾配降下訓練と比較して、より平坦な最小限のニューラルネットワークに導かれることを実験的に見出した。
論文参考訳（メタデータ） (2022-07-13T04:09:14Z)
Neuron-Specific Dropout: A Deterministic Regularization Technique to Prevent Neural Networks from Overfitting & Reduce Dependence on Large Training Samples [0.0]
NSDropoutは、モデルのレイヤのトレーニングパスとバリデーションパスの両方を調べます。データセット内の各クラスのニューロンが生成する平均値を比較することで、ネットワークはターゲットユニットをドロップすることができる。レイヤは、バリデーションからサンプルを見る際に存在しない、テスト中にモデルが見ている機能やノイズを予測することができる。
論文参考訳（メタデータ） (2022-01-13T13:10:30Z)
Mixing between the Cross Entropy and the Expectation Loss Terms [89.30385901335323]
クロスエントロピー損失は、トレーニング中にサンプルを分類するのが難しくなる傾向にある。最適化目標に期待損失を加えることで,ネットワークの精度が向上することを示す。実験により,新しいトレーニングプロトコルにより,多様な分類領域における性能が向上することが示された。
論文参考訳（メタデータ） (2021-09-12T23:14:06Z)
Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文参考訳（メタデータ） (2021-07-05T12:44:39Z)
Advanced Dropout: A Model-free Methodology for Bayesian Dropout Optimization [62.8384110757689]
ディープニューラルネットワーク(DNN)の現実的応用において、ユビキタスなオーバーフィッティングが存在する先進的なドロップアウト手法は、パラメトリック先行でモデルフリーで容易に実装された分布を適用し、ドロップアウト率を適応的に調整する。 7つのコンピュータビジョンデータセットにおける9つのドロップアウト手法に対する高度なドロップアウトの有効性を評価する。
論文参考訳（メタデータ） (2020-10-11T13:19:58Z)
Do We Need Zero Training Loss After Achieving Zero Training Error? [76.44358201918156]
本研究では,遠心分離法(Emphflooding)と呼ばれる直接解法を提案する。本研究では, 浸水により性能が向上し, 副産物として, 試験損失の2重降下曲線が誘導されることを実験的に示す。
論文参考訳（メタデータ） (2020-02-20T12:50:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。