論文の概要: A note on Linear Bottleneck networks and their Transition to
Multilinearity
- arxiv url: http://arxiv.org/abs/2206.15058v1
- Date: Thu, 30 Jun 2022 06:40:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 13:33:47.166746
- Title: A note on Linear Bottleneck networks and their Transition to
Multilinearity
- Title(参考訳): 線形ブートネックネットワークとその多線形性への遷移について
- Authors: Libin Zhu, Parthe Pandit, Mikhail Belkin
- Abstract要約: 一般に、B-1$のボトルネック層の場合、ネットワークは重みの多線形関数の次数$B$である。
重要なのは、その度合いはボトルネックの数にのみ依存し、ネットワーク全体の深さには依存しない。
- 参考スコア(独自算出の注目度): 18.233589417885906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Randomly initialized wide neural networks transition to linear functions of
weights as the width grows, in a ball of radius $O(1)$ around initialization. A
necessary condition for this result is that all layers of the network are wide
enough, i.e., all widths tend to infinity. However, the transition to linearity
breaks down when this infinite width assumption is violated. In this work we
show that linear networks with a bottleneck layer learn bilinear functions of
the weights, in a ball of radius $O(1)$ around initialization. In general, for
$B-1$ bottleneck layers, the network is a degree $B$ multilinear function of
weights. Importantly, the degree only depends on the number of bottlenecks and
not the total depth of the network.
- Abstract(参考訳): ランダムに初期化されたワイドニューラルネットワークは、初期化の周囲の半径$O(1)$の球において、幅が大きくなるにつれて重みの線形関数に遷移する。
この結果に必要な条件は、ネットワークのすべての層が十分に広く、すなわちすべての幅が無限大となることである。
しかし、この無限幅の仮定が破られると線形性への遷移は崩壊する。
本研究では,ボトルネック層を持つ線形ネットワークが,初期化前後の半径$o(1)$の球において重みの双線型関数を学習することを示す。
一般に、B-1$のボトルネック層の場合、ネットワークは重みの多線形関数の次数$B$である。
重要なことに、学位はボトルネックの数にのみ依存し、ネットワーク全体の深さには依存しない。
関連論文リスト
- Deep Neural Networks: Multi-Classification and Universal Approximation [0.0]
我々は,幅2ドル,深さ2N+4M-1$のReLUディープニューラルネットワークが,$N$要素からなる任意のデータセットに対して有限標本記憶を達成できることを実証した。
また、$W1,p$関数を近似するための深さ推定と$Lp(Omega;mathbbRm)$ for $mgeq1$を近似するための幅推定も提供する。
論文 参考訳(メタデータ) (2024-09-10T14:31:21Z) - Bayesian Inference with Deep Weakly Nonlinear Networks [57.95116787699412]
我々は,完全連結ニューラルネットワークによるベイズ推定が解けることを示す物理レベルの厳密さを示す。
我々はモデルエビデンスを計算し、任意の温度で1/N$で任意の順序に後続する手法を提供する。
論文 参考訳(メタデータ) (2024-05-26T17:08:04Z) - Rates of Approximation by ReLU Shallow Neural Networks [8.22379888383833]
隠れたニューロンが$m$のReLU浅部ニューラルネットワークは、H"古い空間からの関数を均一に近似できることを示す。
そのようなレートは$O(m-fracrd)$に非常に近いが、$fracd+2d+4d+4$は、$d$が大きければ1ドルに近いという意味では$O(m-fracrd)$である。
論文 参考訳(メタデータ) (2023-07-24T00:16:50Z) - Depth Dependence of $\mu$P Learning Rates in ReLU MLPs [72.14317069090407]
我々は、最大更新(mu$P)学習率の$n$と$L$に依存することを研究する。
我々は、$L3/2.$のように、$L$の非自明な依存があることを発見した。
論文 参考訳(メタデータ) (2023-05-13T01:10:49Z) - Wide neural networks: From non-gaussian random fields at initialization
to the NTK geometry of training [0.0]
パラメータが$n=1014$を超える人工ニューラルネットワークの応用の最近の進歩は、そのようなネットワークの大きな$n$の振る舞いを研究することが極めて重要である。
広義のニューラルネットワークを研究するほとんどの研究は、そのようなネットワークの無限幅$nから+infty$制限に焦点を当てている。
この研究では、それらの振る舞いを大まかに研究するが、有限$n$である。
論文 参考訳(メタデータ) (2023-04-06T21:34:13Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - Understanding Deep Neural Function Approximation in Reinforcement
Learning via $\epsilon$-Greedy Exploration [53.90873926758026]
本稿では、強化学習(RL)における深部神経機能近似の理論的研究について述べる。
我々は、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$epsilon$-greedy探索により、バリューベースのアルゴリズムに焦点を当てる。
我々の解析は、ある平均測度$mu$の上の$L2(mathrmdmu)$-integrable空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。
論文 参考訳(メタデータ) (2022-09-15T15:42:47Z) - Shallow neural network representation of polynomials [91.3755431537592]
d+1+sum_r=2Rbinomr+d-1d-1[binomr+d-1d-1d-1[binomr+d-1d-1d-1]binomr+d-1d-1d-1[binomr+d-1d-1d-1]binomr+d-1d-1d-1]
論文 参考訳(メタデータ) (2022-08-17T08:14:52Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - A case where a spindly two-layer linear network whips any neural network
with a fully connected input layer [24.132345589750592]
勾配降下によるスパース目標を効率的に学習するために,スパース入力層が必要であることを示す。
驚くべきことに、同じタイプの問題は、単純な2層線形ニューラルネットワークによって大幅に効率良く解決できる。
論文 参考訳(メタデータ) (2020-10-16T20:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。