論文の概要: The Future is Log-Gaussian: ResNets and Their Infinite-Depth-and-Width
Limit at Initialization
- arxiv url: http://arxiv.org/abs/2106.04013v1
- Date: Mon, 7 Jun 2021 23:47:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 16:13:14.275643
- Title: The Future is Log-Gaussian: ResNets and Their Infinite-Depth-and-Width
Limit at Initialization
- Title(参考訳): Log-Gaussianの将来: ResNetsとその初期化時の無限深度制限
- Authors: Mufan Bill Li, Mihai Nica, Daniel M. Roy
- Abstract要約: ReLU ResNets in the infinite-depth-and-width limit, where both depth and width tend to infinity as their ratio, $d/n$。
モンテカルロシミュレーションを用いて、標準ResNetアーキテクチャの基本的な性質でさえガウス極限で十分に捉えられていないことを示した。
- 参考スコア(独自算出の注目度): 18.613475245655806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Theoretical results show that neural networks can be approximated by Gaussian
processes in the infinite-width limit. However, for fully connected networks,
it has been previously shown that for any fixed network width, $n$, the
Gaussian approximation gets worse as the network depth, $d$, increases. Given
that modern networks are deep, this raises the question of how well modern
architectures, like ResNets, are captured by the infinite-width limit. To
provide a better approximation, we study ReLU ResNets in the
infinite-depth-and-width limit, where both depth and width tend to infinity as
their ratio, $d/n$, remains constant. In contrast to the Gaussian
infinite-width limit, we show theoretically that the network exhibits
log-Gaussian behaviour at initialization in the infinite-depth-and-width limit,
with parameters depending on the ratio $d/n$. Using Monte Carlo simulations, we
demonstrate that even basic properties of standard ResNet architectures are
poorly captured by the Gaussian limit, but remarkably well captured by our
log-Gaussian limit. Moreover, our analysis reveals that ReLU ResNets at
initialization are hypoactivated: fewer than half of the ReLUs are activated.
Additionally, we calculate the interlayer correlations, which have the effect
of exponentially increasing the variance of the network output. Based on our
analysis, we introduce Balanced ResNets, a simple architecture modification,
which eliminates hypoactivation and interlayer correlations and is more
amenable to theoretical analysis.
- Abstract(参考訳): 理論的には、ニューラルネットワークは無限幅極限のガウス過程によって近似できる。
しかし、完全接続されたネットワークでは、固定されたネットワーク幅が$n$の場合、ネットワークの深さが$d$が増えるにつれてガウス近似が悪化することが以前に示されている。
現代のネットワークが深いことを考えると、resnetsのような現代的なアーキテクチャが無限幅の限界によっていかにうまく捉えられるかという疑問が浮き彫りになる。
より優れた近似法として、深さと幅の両方が無限大となるような無限深さ幅のReLU ResNetsの研究を行い、その比が$d/n$であり続ける。
ガウス無限幅極限とは対照的に、ネットワークは無限深さおよび幅極限の初期化時に対数ガウス的挙動を示し、パラメータは$d/n$に依存する。
モンテカルロシミュレーションを用いて、標準ResNetアーキテクチャの基本的な性質でさえガウス極限では不十分であるが、対数ガウス極限では著しく良好であることを示した。
さらに,初期化時のReLU ResNetの活性化は,ReLUの半分以下であることがわかった。
さらに,ネットワーク出力のばらつきを指数関数的に増大させる効果を有する層間相関を計算する。
本分析では, 階層間相関を排除し, 理論的解析に適した単純なアーキテクチャ修正である Balanced ResNets を導入している。
関連論文リスト
- Covering Numbers for Deep ReLU Networks with Applications to Function Approximation and Nonparametric Regression [4.297070083645049]
我々は、完全連結ネットワークの被覆数に対して、(乗法定数まで)下限と上限を密に展開する。
境界の厳密さにより、疎度、量子化、有界対非有界重み、およびネットワーク出力トランケーションの影響の根本的な理解が展開できる。
論文 参考訳(メタデータ) (2024-10-08T21:23:14Z) - Generalization of Scaled Deep ResNets in the Mean-Field Regime [55.77054255101667]
無限深度および広帯域ニューラルネットワークの限界におけるエンスケールResNetについて検討する。
この結果から,遅延学習体制を超えた深層ResNetの一般化能力に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2024-03-14T21:48:00Z) - Wide Deep Neural Networks with Gaussian Weights are Very Close to
Gaussian Processes [1.0878040851638]
ネットワーク出力と対応するガウス近似との距離は、ネットワークの幅と逆向きにスケールし、中心極限定理によって提案されるネーブよりも高速な収束を示すことを示す。
また、(有限)トレーニングセットで評価されたネットワーク出力の有界リプシッツ関数である場合、ネットワークの正確な後部分布の理論的近似を求めるために境界を適用した。
論文 参考訳(メタデータ) (2023-12-18T22:29:40Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - Overparameterization of deep ResNet: zero loss and mean-field analysis [19.45069138853531]
データに適合するディープニューラルネットワーク(NN)内のパラメータを見つけることは、非最適化問題である。
基礎的な一階述語最適化法(漸進降下法)は,多くの現実的状況に完全に適合した大域的解を求める。
所定の閾値未満の損失を減らすために必要な深さと幅を高い確率で推定する。
論文 参考訳(メタデータ) (2021-05-30T02:46:09Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Doubly infinite residual neural networks: a diffusion process approach [8.642603456626393]
ディープResNetは望ましくないフォワードプロパゲーション特性に悩まされないことを示す。
我々は2つの無限完全接続 ResNet に焦点を当て、i.i.d を考える。
我々の結果は、未スケールのネットワークのパラメータが i.d. であり、残余ブロックが浅い場合、ResNetの2倍の表現力に制限があることを示している。
論文 参考訳(メタデータ) (2020-07-07T07:45:34Z) - On Random Kernels of Residual Architectures [93.94469470368988]
ResNets と DenseNets のニューラルタンジェントカーネル (NTK) に対して有限幅および深さ補正を導出する。
その結果,ResNetsでは,深さと幅が同時に無限大となるとNTKへの収束が生じる可能性が示唆された。
しかし、DenseNetsでは、NTKの幅が無限大になる傾向があるため、その限界への収束が保証されている。
論文 参考訳(メタデータ) (2020-01-28T16:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。