論文の概要: Implicit regularization of dropout
- arxiv url: http://arxiv.org/abs/2207.05952v2
- Date: Mon, 10 Apr 2023 08:26:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 23:44:11.079575
- Title: Implicit regularization of dropout
- Title(参考訳): ドロップアウトの暗黙の正規化
- Authors: Zhongwang Zhang and Zhi-Qin John Xu
- Abstract要約: 一般的な正規化手法であるドロップアウトが、ニューラルネットワークトレーニング中に優れた一般化ソリューションを実現するのにどのように役立つかを理解することが重要である。
本研究では,一連の実験によって検証されたドロップアウトの暗黙の正則化の理論的導出について述べる。
降下によるトレーニングは、標準勾配降下訓練と比較して、より平坦な最小限のニューラルネットワークに導かれることを実験的に見出した。
- 参考スコア(独自算出の注目度): 3.42658286826597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is important to understand how dropout, a popular regularization method,
aids in achieving a good generalization solution during neural network
training. In this work, we present a theoretical derivation of an implicit
regularization of dropout, which is validated by a series of experiments.
Additionally, we numerically study two implications of the implicit
regularization, which intuitively rationalizes why dropout helps
generalization. Firstly, we find that input weights of hidden neurons tend to
condense on isolated orientations trained with dropout. Condensation is a
feature in the non-linear learning process, which makes the network less
complex. Secondly, we experimentally find that the training with dropout leads
to the neural network with a flatter minimum compared with standard gradient
descent training, and the implicit regularization is the key to finding flat
solutions. Although our theory mainly focuses on dropout used in the last
hidden layer, our experiments apply to general dropout in training neural
networks. This work points out a distinct characteristic of dropout compared
with stochastic gradient descent and serves as an important basis for fully
understanding dropout.
- Abstract(参考訳): 一般的な正規化手法であるドロップアウトが、ニューラルネットワークトレーニング中に優れた一般化ソリューションを実現するのにどのように役立つかを理解することが重要である。
本研究では,一連の実験によって検証されたドロップアウトの暗黙の正則化の理論的導出について述べる。
さらに,暗黙正則化の2つの意味を数値的に研究し,ドロップアウトが一般化に寄与する理由を直感的に合理化する。
第一に、隠れたニューロンの入力重みは、ドロップアウトで訓練された孤立配向に凝縮する傾向がある。
凝縮は非線形学習プロセスにおける特徴であり、ネットワークがより複雑になる。
第2に、ドロップアウトによるトレーニングが、標準的な勾配降下トレーニングよりも平坦な最小のニューラルネットワークにつながり、暗黙の正規化がフラットな解を見つける鍵であることを実験的に見出した。
我々の理論は主に最後の隠れ層で使われるドロップアウトに焦点を当てているが、実験はニューラルネットワークのトレーニングにおける一般的なドロップアウトに適用できる。
本研究は, 確率勾配降下と比較して, ドロップアウトの特異な特徴を指摘し, ドロップアウトを完全に理解するための重要な基礎となる。
関連論文リスト
- Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - A Scalable Walsh-Hadamard Regularizer to Overcome the Low-degree
Spectral Bias of Neural Networks [79.28094304325116]
任意の関数を学習するニューラルネットワークの能力にもかかわらず、勾配降下によって訓練されたモデルは、しばしばより単純な関数に対するバイアスを示す。
我々は、この低度周波数に対するスペクトルバイアスが、現実のデータセットにおけるニューラルネットワークの一般化を実際にいかに損なうかを示す。
本稿では,ニューラルネットワークによる高次周波数学習を支援する,スケーラブルな機能正規化手法を提案する。
論文 参考訳(メタデータ) (2023-05-16T20:06:01Z) - Dropout Reduces Underfitting [85.61466286688385]
本研究は,トレーニング開始時の不適合を軽減できることを示す。
ドロップアウトは、ミニバッチ間の勾配の方向性のばらつきを低減し、データセット全体の勾配とミニバッチ勾配の整合を支援する。
この結果から,未適合モデルの性能向上のためのソリューションが得られた – 早期のドロップアウト – トレーニングの初期段階でのみドロップアウトが適用され,その後,オフになります。
論文 参考訳(メタデータ) (2023-03-02T18:59:15Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Information Geometry of Dropout Training [5.990174495635326]
Dropoutは、ニューラルネットワークトレーニングにおける最も一般的な正規化テクニックの1つである。
本稿では,情報幾何学の観点から,ドロップアウトの特性を統一的に論じる。
論文 参考訳(メタデータ) (2022-06-22T09:27:41Z) - A variance principle explains why dropout finds flatter minima [0.0]
ドロップアウトによるトレーニングは、標準勾配降下訓練と比較して、より平坦な最小限のニューラルネットワークを見出すことが示される。
本稿では,損失景観のよりシャープな方向において,ノイズの分散が大きくなるという分散原理を提案する。
論文 参考訳(メタデータ) (2021-11-01T15:26:19Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - Gradient Descent for Deep Matrix Factorization: Dynamics and Implicit
Bias towards Low Rank [1.9350867959464846]
ディープラーニングでは、勾配発散は、よく一般化する解を好む傾向にある。
本稿では,線形ネットワークの簡易化における勾配降下のダイナミクスと推定問題について解析する。
論文 参考訳(メタデータ) (2020-11-27T15:08:34Z) - Learning from Failure: Training Debiased Classifier from Biased
Classifier [76.52804102765931]
ニューラルネットワークは、所望の知識よりも学習が簡単である場合にのみ、素早い相関に依存することを学習していることを示す。
本稿では,一対のニューラルネットワークを同時にトレーニングすることで,障害に基づくデバイアス化手法を提案する。
本手法は,合成データセットと実世界のデータセットの両方において,各種バイアスに対するネットワークのトレーニングを大幅に改善する。
論文 参考訳(メタデータ) (2020-07-06T07:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。