論文の概要: Implicit regularization of dropout
- arxiv url: http://arxiv.org/abs/2207.05952v1
- Date: Wed, 13 Jul 2022 04:09:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-07-14 14:58:51.652049
- Title: Implicit regularization of dropout
- Title(参考訳): ドロップアウトの暗黙の正規化
- Authors: Zhongwang Zhang and Zhi-Qin John Xu
- Abstract要約: 一般的な正規化メソッドのドロップアウトが、ニューラルネットワークトレーニングが優れたソリューションを見つけるのにどのように役立つのかを理解することが重要です。
本研究では,ドロップアウトの暗黙的な正規化を理論的に導出し,損失関数のヘッセン行列とドロップアウト雑音の共分散行列の関係について検討する。
ドロップアウトによるトレーニングでは、実験の標準勾配降下訓練と比較して、ニューラルネットワークが最小限の平らであることがわかった。
- 参考スコア(独自算出の注目度): 3.42658286826597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is important to understand how the popular regularization method dropout
helps the neural network training find a good generalization solution. In this
work, we theoretically derive the implicit regularization of dropout and study
the relation between the Hessian matrix of the loss function and the covariance
matrix of the dropout noise, supported by a series of experiments. We then
numerically study two implications of the implicit regularization of dropout,
which intuitively rationalize why dropout helps generalization. First, we find
that the training with dropout finds the neural network with a flatter minimum
compared with standard gradient descent training in experiments, and the
implicit regularization is the key for finding flat solutions. Second, trained
with dropout, input weights of hidden neurons (the input weight of a hidden
neuron consists of the weight from its input layer to the hidden neuron and its
bias term) would tend to condense on isolated orientations. Condensation is a
feature in non-linear learning process, which makes the neural network low
complexity. Although our theory mainly focuses on the dropout used in the last
hidden layer, our experiments apply for general dropout in training neural
networks. This work points out the distinct characteristics of dropout compared
with stochastic gradient descent and serves as an important basis for fully
understanding dropout.
- Abstract(参考訳): 一般的な正規化手法であるドロップアウトが、ニューラルネットワークトレーニングが優れた一般化ソリューションを見つける上でどのように役立つかを理解することは重要である。
本研究では,ドロップアウトの暗黙的な正則化を理論的に導出し,損失関数のヘッセン行列とドロップアウト雑音の共分散行列の関係を一連の実験で検証する。
次に、ドロップアウトの暗黙的な正則化の2つの意味を数値的に研究する。
第一に、ドロップアウトによるトレーニングは、実験における標準勾配降下訓練と比較して、より平坦な最小限のニューラルネットワークを見つけ、暗黙の正規化が平坦な解を見つける鍵となる。
第二に、隠れたニューロンの入力重み(隠れたニューロンの入力重みは、入力層から隠れたニューロンへの重みとバイアス項からなる)は、孤立した向きに凝縮する傾向がある。
凝縮は非線形学習プロセスの特徴であり、ニューラルネットワークの複雑さを低くする。
我々の理論は主に最後の隠れ層で使われるドロップアウトに焦点を当てているが、実験はニューラルネットワークのトレーニングにおける一般的なドロップアウトに適用できる。
本研究は,ドロップアウトの特異な特性を確率的勾配降下と比較し,ドロップアウトを完全に理解するための重要な基礎となっている。
関連論文リスト
- Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - A Scalable Walsh-Hadamard Regularizer to Overcome the Low-degree
Spectral Bias of Neural Networks [79.28094304325116]
任意の関数を学習するニューラルネットワークの能力にもかかわらず、勾配降下によって訓練されたモデルは、しばしばより単純な関数に対するバイアスを示す。
我々は、この低度周波数に対するスペクトルバイアスが、現実のデータセットにおけるニューラルネットワークの一般化を実際にいかに損なうかを示す。
本稿では,ニューラルネットワークによる高次周波数学習を支援する,スケーラブルな機能正規化手法を提案する。
論文 参考訳(メタデータ) (2023-05-16T20:06:01Z) - Dropout Reduces Underfitting [85.61466286688385]
本研究は,トレーニング開始時の不適合を軽減できることを示す。
ドロップアウトは、ミニバッチ間の勾配の方向性のばらつきを低減し、データセット全体の勾配とミニバッチ勾配の整合を支援する。
この結果から,未適合モデルの性能向上のためのソリューションが得られた – 早期のドロップアウト – トレーニングの初期段階でのみドロップアウトが適用され,その後,オフになります。
論文 参考訳(メタデータ) (2023-03-02T18:59:15Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Information Geometry of Dropout Training [5.990174495635326]
Dropoutは、ニューラルネットワークトレーニングにおける最も一般的な正規化テクニックの1つである。
本稿では,情報幾何学の観点から,ドロップアウトの特性を統一的に論じる。
論文 参考訳(メタデータ) (2022-06-22T09:27:41Z) - A variance principle explains why dropout finds flatter minima [0.0]
ドロップアウトによるトレーニングは、標準勾配降下訓練と比較して、より平坦な最小限のニューラルネットワークを見出すことが示される。
本稿では,損失景観のよりシャープな方向において,ノイズの分散が大きくなるという分散原理を提案する。
論文 参考訳(メタデータ) (2021-11-01T15:26:19Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - Gradient Descent for Deep Matrix Factorization: Dynamics and Implicit
Bias towards Low Rank [1.9350867959464846]
ディープラーニングでは、勾配発散は、よく一般化する解を好む傾向にある。
本稿では,線形ネットワークの簡易化における勾配降下のダイナミクスと推定問題について解析する。
論文 参考訳(メタデータ) (2020-11-27T15:08:34Z) - Learning from Failure: Training Debiased Classifier from Biased
Classifier [76.52804102765931]
ニューラルネットワークは、所望の知識よりも学習が簡単である場合にのみ、素早い相関に依存することを学習していることを示す。
本稿では,一対のニューラルネットワークを同時にトレーニングすることで,障害に基づくデバイアス化手法を提案する。
本手法は,合成データセットと実世界のデータセットの両方において,各種バイアスに対するネットワークのトレーニングを大幅に改善する。
論文 参考訳(メタデータ) (2020-07-06T07:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。