論文の概要: Differential Equation Scaling Limits of Shaped and Unshaped Neural Networks
- arxiv url: http://arxiv.org/abs/2310.12079v2
- Date: Thu, 18 Apr 2024 19:07:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 20:16:45.839048
- Title: Differential Equation Scaling Limits of Shaped and Unshaped Neural Networks
- Title(参考訳): 形状ニューラルネットワークと非形状ニューラルネットワークの微分方程式スケーリング限界
- Authors: Mufan Bill Li, Mihai Nica,
- Abstract要約: 類似した微分方程式に基づく2種類の不整形ネットワークのキャラクタリゼーションを求める。
我々は第1次補正を階層的相関に導出する。
これらの結果は、形状と未形状のネットワークアーキテクチャ間の接続を提供する。
- 参考スコア(独自算出の注目度): 8.716913598251386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent analyses of neural networks with shaped activations (i.e. the activation function is scaled as the network size grows) have led to scaling limits described by differential equations. However, these results do not a priori tell us anything about "ordinary" unshaped networks, where the activation is unchanged as the network size grows. In this article, we find similar differential equation based asymptotic characterization for two types of unshaped networks. Firstly, we show that the following two architectures converge to the same infinite-depth-and-width limit at initialization: (i) a fully connected ResNet with a $d^{-1/2}$ factor on the residual branch, where $d$ is the network depth. (ii) a multilayer perceptron (MLP) with depth $d \ll$ width $n$ and shaped ReLU activation at rate $d^{-1/2}$. Secondly, for an unshaped MLP at initialization, we derive the first order asymptotic correction to the layerwise correlation. In particular, if $\rho_\ell$ is the correlation at layer $\ell$, then $q_t = \ell^2 (1 - \rho_\ell)$ with $t = \frac{\ell}{n}$ converges to an SDE with a singularity at $t=0$. These results together provide a connection between shaped and unshaped network architectures, and opens up the possibility of studying the effect of normalization methods and how it connects with shaping activation functions.
- Abstract(参考訳): 近年のニューラルネットワークの活性化(すなわち、ネットワークサイズが大きくなるにつれて活性化関数がスケールされる)の分析は、微分方程式によって記述されたスケーリング制限を導いた。
しかし、これらの結果は、ネットワークサイズが大きくなるにつれてアクティベーションが変化しない「通常の」未整形ネットワークについては何も教えてくれない。
本稿では,2種類の不整形ネットワークに対して,類似の微分方程式に基づく漸近特性を求める。
まず、以下の2つのアーキテクチャが初期化時に同じ無限深さおよび幅の極限に収束することを示す。
i) ネットワーク深度が$d$である残枝上の$d^{-1/2}$係数を持つ完全連結ResNet。
(ii)深さ$d \ll$ width $n$と形成されたReLU活性化率$d^{-1/2}$の多層パーセプトロン(MLP)。
第2に, 初期化時の不形のMLPに対して, 層状相関に対する第1次漸近補正を導出する。
特に、$\rho_\ell$ が層 $\ell$ の相関であれば、$q_t = \ell^2 (1 - \rho_\ell)$ with $t = \frac{\ell}{n}$ は特異点が $t=0$ の SDE に収束する。
これらの結果は、形状と未形状のネットワークアーキテクチャ間の接続を提供し、正規化法の効果と、形状活性化関数とどのように接続するかを研究する可能性を開放する。
関連論文リスト
- Implicit Hypersurface Approximation Capacity in Deep ReLU Networks [0.0]
本稿では,ReLUアクティベーションを用いたディープフィードフォワードニューラルネットワークの幾何近似理論を開発する。
幅$d+1$の深い完全連結ReLUネットワークは、そのゼロ輪郭として暗黙的に近似を構成することができることを示す。
論文 参考訳(メタデータ) (2024-07-04T11:34:42Z) - Bayesian Inference with Deep Weakly Nonlinear Networks [57.95116787699412]
我々は,完全連結ニューラルネットワークによるベイズ推定が解けることを示す物理レベルの厳密さを示す。
我々はモデルエビデンスを計算し、任意の温度で1/N$で任意の順序に後続する手法を提供する。
論文 参考訳(メタデータ) (2024-05-26T17:08:04Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Correlation Functions in Random Fully Connected Neural Networks at
Finite Width [17.51364577113718]
この記事では、ガウスのランダムな重みとバイアスと$L$の隠蔽層を持つ完全に接続されたニューラルネットワークについて考察する。
有界非線形性に対しては、ネットワーク出力とその導関数の共役相関関数に対して1/n$の急激な再帰推定を与える。
いずれの場合も、深さと幅の比$L/n$は、個々のニューロンのゆらぎのスケールとニューロン間相関の大きさの両方を制御し、有効なネットワーク深さの役割を担っている。
論文 参考訳(メタデータ) (2022-04-03T11:57:18Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - Theory of Deep Convolutional Neural Networks III: Approximating Radial
Functions [7.943024117353317]
我々は、2つの畳み込み層、ダウン演算子、完全に接続された層からなるディープニューラルネットワークのファミリーを考える。
ネットワーク構造は、畳み込み層の数と完全に連結された層の幅を決定する2つの構造パラメータに依存する。
論文 参考訳(メタデータ) (2021-07-02T08:22:12Z) - Topology of deep neural networks [8.946655323517092]
M = M_a cup M_b subseteq mathbbRd$データセットのトポロジが、よく訓練されたニューラルネットワークの層を通過するとどのように変化するかを研究する。
論文 参考訳(メタデータ) (2020-04-13T17:53:36Z) - A Corrective View of Neural Networks: Representation, Memorization and
Learning [26.87238691716307]
我々はニューラルネットワーク近似の補正機構を開発する。
ランダム・フィーチャー・レギュレーション(RF)における2層ニューラルネットワークは任意のラベルを記憶できることを示す。
また、3層ニューラルネットワークについても検討し、その補正機構がスムーズなラジアル関数に対する高速な表現率をもたらすことを示す。
論文 参考訳(メタデータ) (2020-02-01T20:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。