論文の概要: Dropout Drops Double Descent
- arxiv url: http://arxiv.org/abs/2305.16179v2
- Date: Sat, 22 Jul 2023 03:07:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 21:05:13.262401
- Title: Dropout Drops Double Descent
- Title(参考訳): Dropoutがダブルダイスをドロップ
- Authors: Tian-Le Yang, Joe Suzuki
- Abstract要約: 完全に接続された線形層の前に1つのドロップアウト層を追加するだけで、二重降下が容易に減少できることを発見し、分析する。
非線形ニューラルネットワークにおける単調なテスト誤差曲線を最適ドロップアウトで達成できることを実証的に示す。
- 参考スコア(独自算出の注目度): 3.0458514384586395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we find and analyze that we can easily drop the double descent
by only adding one dropout layer before the fully-connected linear layer. The
surprising double-descent phenomenon has drawn public attention in recent
years, making the prediction error rise and drop as we increase either sample
or model size. The current paper shows that it is possible to alleviate these
phenomena by using optimal dropout in the linear regression model and the
nonlinear random feature regression, both theoretically and empirically. %
${y}=X{\beta}^0+{\epsilon}$ with $X\in\mathbb{R}^{n\times p}$. We obtain the
optimal dropout hyperparameter by estimating the ground truth ${\beta}^0$ with
generalized ridge typed estimator
$\hat{{\beta}}=(X^TX+\alpha\cdot\mathrm{diag}(X^TX))^{-1}X^T{y}$. Moreover, we
empirically show that optimal dropout can achieve a monotonic test error curve
in nonlinear neural networks using Fashion-MNIST and CIFAR-10. Our results
suggest considering dropout for risk curve scaling when meeting the peak
phenomenon. In addition, we figure out why previous deep learning models do not
encounter double-descent scenarios -- because we already apply a usual
regularization approach like the dropout in our models. To our best knowledge,
this paper is the first to analyze the relationship between dropout and double
descent.
- Abstract(参考訳): 本稿では,全接続の線形層の前に1つのドロップアウト層を追加するだけで,2重降下が容易にできることを示す。
この驚くべき二日月現象は近年大衆の注目を集めており、サンプルやモデルのサイズが増すにつれて予測誤差が増減している。
本稿では,線形回帰モデルと非線形ランダム特徴回帰モデルにおいて,理論上,経験上,最適ドロップアウトを用いることで,これらの現象を緩和できることを示す。
% ${y}=X{\beta}^0+{\epsilon}$ with $X\in\mathbb{R}^{n\times p}$。
一般化されたリッジ型推定器 $\hat{{\beta}}=(X^TX+\alpha\cdot\mathrm{diag}(X^TX))^{-1}X^T{y}$ で基底真理 ${\beta}^0$ を推定することにより、最適ドロップアウトハイパーパラメータを得る。
さらに,Fashion-MNIST と CIFAR-10 を用いて,非線形ニューラルネットワークにおける単調テスト誤差曲線の最適解法が可能であることを示す。
以上の結果から,ピーク時におけるリスク曲線スケーリングの削減を検討することを提案する。
さらに、従来のディープラーニングモデルが2段階のシナリオに遭遇しない理由もわかっています -- モデルにドロップアウトのような通常の正規化アプローチをすでに適用しています。
我々の知る限り、この論文はドロップアウトとダブル降下の関係を初めて分析したものである。
関連論文リスト
- A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Dropout Regularization Versus $\ell_2$-Penalization in the Linear Model [7.032245866317619]
線形回帰モデルにおける降下を伴う勾配降下の統計的挙動について検討する。
我々は、勾配勾配勾配のダイナミクスと、ドロップアウトによって引き起こされる追加のランダム性の間の相互作用により、より微妙な関係を示す。
論文 参考訳(メタデータ) (2023-06-18T11:17:15Z) - Input Perturbation Reduces Exposure Bias in Diffusion Models [41.483581603727444]
本稿では,長いサンプリングチェーンが,自己回帰テキスト生成における露出バイアス問題と同様の誤差蓄積現象を引き起こすことを示す。
本稿では,推定時間予測誤差をシミュレートするために,基底真理サンプルを摂動させることにより,非常に単純で効果的なトレーニング正則化を提案する。
実験により,リコールと精度に影響を与えることなく,提案した入力摂動がサンプル品質を著しく向上させることを示した。
論文 参考訳(メタデータ) (2023-01-27T13:34:54Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。
そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文 参考訳(メタデータ) (2021-06-03T09:34:17Z) - Efficient Causal Inference from Combined Observational and
Interventional Data through Causal Reductions [68.6505592770171]
因果効果を推定する際の主な課題の1つである。
そこで本研究では,任意の数の高次元潜入共創者を置き換える新たな因果還元法を提案する。
パラメータ化縮小モデルを観測データと介入データから共同で推定する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-08T14:29:07Z) - Contextual Dropout: An Efficient Sample-Dependent Dropout Module [60.63525456640462]
ドロップアウトは、ディープニューラルネットワークのトレーニングプロセスを正規化するシンプルで効果的なモジュールとして実証されています。
単純でスケーラブルなサンプル依存型ドロップアウトモジュールとして,効率的な構造設計によるコンテキスト型ドロップアウトを提案する。
提案手法は,不確実性推定の精度と品質の両面において,ベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2021-03-06T19:30:32Z) - Advanced Dropout: A Model-free Methodology for Bayesian Dropout
Optimization [62.8384110757689]
ディープニューラルネットワーク(DNN)の現実的応用において、ユビキタスなオーバーフィッティングが存在する
先進的なドロップアウト手法は、パラメトリック先行でモデルフリーで容易に実装された分布を適用し、ドロップアウト率を適応的に調整する。
7つのコンピュータビジョンデータセットにおける9つのドロップアウト手法に対する高度なドロップアウトの有効性を評価する。
論文 参考訳(メタデータ) (2020-10-11T13:19:58Z) - Double Trouble in Double Descent : Bias and Variance(s) in the Lazy
Regime [32.65347128465841]
深層ニューラルネットワークは、トレーニングデータを完璧に補間しながら、素晴らしいパフォーマンスを達成することができる。
バイアス分散トレードオフのU曲線ではなく、テストエラーはしばしば「二重降下」に従う。
我々は、ニューラルネットワークのいわゆる遅延学習システムにおいて、この現象の定量的理論を開発する。
論文 参考訳(メタデータ) (2020-03-02T17:39:31Z) - The Implicit and Explicit Regularization Effects of Dropout [43.431343291010734]
ドロップアウト(英: Dropout)は、多くのアーキテクチャの最先端を得るためにしばしば必要とされる、広く使われている正規化技術である。
この研究は、ドロップアウトが2つの異なるが絡み合った正規化効果をもたらすことを示した。
論文 参考訳(メタデータ) (2020-02-28T18:31:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。