論文の概要: Almost Sure Convergence of Dropout Algorithms for Neural Networks
- arxiv url: http://arxiv.org/abs/2002.02247v2
- Date: Thu, 23 Mar 2023 15:13:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 20:00:24.672457
- Title: Almost Sure Convergence of Dropout Algorithms for Neural Networks
- Title(参考訳): ニューラルネットワークにおけるドロップアウトアルゴリズムのほぼ確実に収束
- Authors: Albert Senen-Cerda, Jaron Sanders
- Abstract要約: 我々は、Dropout(on et al., 2012)にインスパイアされたニューラルネットワーク(NN)の乗算学習アルゴリズムの収束と速度について検討する。
本稿では,完全連結定常NNに対して,有意な有界なアクティベーション関数を持つ確率論的証明を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the convergence and convergence rate of stochastic training
algorithms for Neural Networks (NNs) that have been inspired by Dropout (Hinton
et al., 2012). With the goal of avoiding overfitting during training of NNs,
dropout algorithms consist in practice of multiplying the weight matrices of a
NN componentwise by independently drawn random matrices with $\{0, 1 \}$-valued
entries during each iteration of Stochastic Gradient Descent (SGD). This paper
presents a probability theoretical proof that for fully-connected NNs with
differentiable, polynomially bounded activation functions, if we project the
weights onto a compact set when using a dropout algorithm, then the weights of
the NN converge to a unique stationary point of a projected system of Ordinary
Differential Equations (ODEs). After this general convergence guarantee, we go
on to investigate the convergence rate of dropout. Firstly, we obtain generic
sample complexity bounds for finding $\epsilon$-stationary points of smooth
nonconvex functions using SGD with dropout that explicitly depend on the
dropout probability. Secondly, we obtain an upper bound on the rate of
convergence of Gradient Descent (GD) on the limiting ODEs of dropout algorithms
for NNs with the shape of arborescences of arbitrary depth and with linear
activation functions. The latter bound shows that for an algorithm such as
Dropout or Dropconnect (Wan et al., 2013), the convergence rate can be impaired
exponentially by the depth of the arborescence. In contrast, we experimentally
observe no such dependence for wide NNs with just a few dropout layers. We also
provide a heuristic argument for this observation. Our results suggest that
there is a change of scale of the effect of the dropout probability in the
convergence rate that depends on the relative size of the width of the NN
compared to its depth.
- Abstract(参考訳): 本研究では,ドロップアウトに触発されたニューラルネットワーク(nns)の確率的学習アルゴリズムの収束と収束率について検討する(hinton et al., 2012)。
NNのトレーニング中に過度な適合を避けるために、ドロップアウトアルゴリズムは、SGD(Stochastic Gradient Descent)の各イテレーションで$\{0, 1 \}$-valuedエントリを持つ独立に描画されたランダム行列によって、NNの重み行列をNN成分的に乗算するプラクティスで構成される。
本稿では、微分可能で多項式有界な活性化関数を持つ完全連結nnに対して、ドロップアウトアルゴリズムを用いて重みをコンパクト集合に投影すると、nnの重みは常微分方程式(odes)の射影系の一意的な定常点に収束する確率論的証明を示す。
この一般的な収束保証の後、私たちはドロップアウトの収束率を調査します。
まず、ドロップアウト確率に明示的に依存するドロップアウトを持つSGDを用いて、滑らかな非凸関数の$\epsilon$-stationary点を求めるための一般的なサンプル複雑性境界を求める。
第2に、任意の深さのアーボラッセンス形状と線形活性化関数を持つNNに対するドロップアウトアルゴリズムの制限ODEに対するグラディエント・ディキセント(GD)の収束率の上限を求める。
後者の境界は、Dropout や Dropconnect (Wan et al., 2013) のようなアルゴリズムでは、収束率はアーボラッセンスの深さによって指数関数的に損なわれることを示している。
対照的に、少数のドロップアウト層を持つ広帯域NNに対するそのような依存を実験的に観察する。
この観察に対するヒューリスティックな議論も提供する。
この結果から,nnの幅の相対的な大きさに依存する収束率におけるドロップアウト確率の影響は,nnの深さと比較して大きく変化することが示唆された。
関連論文リスト
- Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Approximation Results for Gradient Descent trained Neural Networks [0.0]
ネットワークは完全に接続された一定の深さ増加幅である。
連続カーネルエラーノルムは、滑らかな関数に必要な自然な滑らかさの仮定の下での近似を意味する。
論文 参考訳(メタデータ) (2023-09-09T18:47:55Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - Neural Optimization Kernel: Towards Robust Deep Learning [13.147925376013129]
近年の研究では、ニューラルネットワーク(NN)とカーネルメソッドの関連性が示されている。
本稿では,カーネル(NOK)という新しいカーネルファミリーを提案する。
パラメータ化ディープNN(NOK)は,経験的リスクを低減し,有界一般化を同時に低減できることを示す。
論文 参考訳(メタデータ) (2021-06-11T00:34:55Z) - LocalDrop: A Hybrid Regularization for Deep Neural Networks [98.30782118441158]
本稿では,ローカルラデマチャー複雑性を用いたニューラルネットワークの正規化のための新しい手法であるLocalDropを提案する。
フルコネクテッドネットワーク(FCN)と畳み込みニューラルネットワーク(CNN)の両方のための新しい正規化機能は、ローカルラデマチャー複雑さの上限提案に基づいて開発されました。
論文 参考訳(メタデータ) (2021-03-01T03:10:11Z) - Asymptotic convergence rate of Dropout on shallow linear neural networks [0.0]
本研究では, 微小線形ニューラルネットワークに適用する場合に, ドロップアウトとドロップコネクションによって誘導される目的関数の収束度を解析する。
我々は、勾配流の局所収束証明と、そのデータ、レート確率、NNの幅に依存する速度のバウンダリを得る。
論文 参考訳(メタデータ) (2020-12-01T19:02:37Z) - Random Vector Functional Link Networks for Function Approximation on Manifolds [8.535815777849786]
ランダムな入力-隠蔽層重みとバイアスを持つ単一層ニューラルネットが実際に成功していることを示す。
さらに、このランダム化されたニューラルネットワークアーキテクチャをユークリッド空間の滑らかでコンパクトな部分多様体上の近似関数に適用する。
論文 参考訳(メタデータ) (2020-07-30T23:50:44Z) - Quantitative Propagation of Chaos for SGD in Wide Neural Networks [39.35545193410871]
本稿では,SGD(Gradient Descent)の連続時間動作の制限挙動について検討する。
本研究では, この連続時間力学によって定義される粒子系に対して, 異なるシナリオ下での「カオスの伝播」を示す。
最小化問題の暗黙的な正則化版に対応する2つの平均場限界を求める。
論文 参考訳(メタデータ) (2020-07-13T12:55:21Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z) - On Random Kernels of Residual Architectures [93.94469470368988]
ResNets と DenseNets のニューラルタンジェントカーネル (NTK) に対して有限幅および深さ補正を導出する。
その結果,ResNetsでは,深さと幅が同時に無限大となるとNTKへの収束が生じる可能性が示唆された。
しかし、DenseNetsでは、NTKの幅が無限大になる傾向があるため、その限界への収束が保証されている。
論文 参考訳(メタデータ) (2020-01-28T16:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。