論文の概要: $\alpha$-Stable convergence of heavy-tailed infinitely-wide neural
networks
- arxiv url: http://arxiv.org/abs/2106.11064v1
- Date: Fri, 18 Jun 2021 01:36:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:41:03.598946
- Title: $\alpha$-Stable convergence of heavy-tailed infinitely-wide neural
networks
- Title(参考訳): 重み付き無限大ニューラルネットワークの$\alpha$-Stable収束
- Authors: Paul Jung, Hoil Lee, Jiho Lee, and Hongseok Yang
- Abstract要約: 無限幅多層パーセプトロン(MLP)は、標準フィードフォワードニューラルネットワークの限界である。
与えられた隠蔽層の全ノードにおけるプレアクティベーション値のベクトルは、その極限に収束することを示す。
- 参考スコア(独自算出の注目度): 8.880921123362294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider infinitely-wide multi-layer perceptrons (MLPs) which are limits
of standard deep feed-forward neural networks. We assume that, for each layer,
the weights of an MLP are initialized with i.i.d. samples from either a
light-tailed (finite variance) or heavy-tailed distribution in the domain of
attraction of a symmetric $\alpha$-stable distribution, where $\alpha\in(0,2]$
may depend on the layer. For the bias terms of the layer, we assume i.i.d.
initializations with a symmetric $\alpha$-stable distribution having the same
$\alpha$ parameter of that layer. We then extend a recent result of Favaro,
Fortini, and Peluchetti (2020), to show that the vector of pre-activation
values at all nodes of a given hidden layer converges in the limit, under a
suitable scaling, to a vector of i.i.d. random variables with symmetric
$\alpha$-stable distributions.
- Abstract(参考訳): 我々は、標準のディープフィードフォワードニューラルネットワークの限界である無限大多層パーセプトロン(MLP)を考える。
各層について、MLPの重みは i.i.d で初期化されると仮定する。
対称$\alpha$-stable分布のアトラクション領域における光尾分布(有限分散)または重い尾分布(英語版)のサンプル($\alpha\in(0,2]$)は層に依存する。
層のバイアス項では i. i. d. と仮定します
対称な$\alpha$-stable分布を持つ初期化は、その層と同じ$\alpha$パラメータを持つ。
次に、Favaro, Fortini, and Peluchetti (2020) の最近の結果を拡張し、与えられた隠れ層のすべてのノードにおける事前活性化値のベクトルが、適切なスケーリングの下で、その極限に収束することを示す。
対称 $\alpha$-stable 分布を持つ確率変数。
関連論文リスト
- Multilayer Correlation Clustering [12.492037397168579]
相関クラスタリング(Bansal et al., FOCS '02)の新たな一般化である多層相関クラスタリングを確立する。
本稿では、共通集合である$V$に対して相関クラスタリング(層と呼ばれる)の一連の入力を与えられる。
目的は、不一致ベクトルの$ell_p$-norm(pgeq 1$)を最小化する$V$のクラスタリングを見つけることである。
論文 参考訳(メタデータ) (2024-04-25T15:25:30Z) - Depth Dependence of $\mu$P Learning Rates in ReLU MLPs [72.14317069090407]
我々は、最大更新(mu$P)学習率の$n$と$L$に依存することを研究する。
我々は、$L3/2.$のように、$L$の非自明な依存があることを発見した。
論文 参考訳(メタデータ) (2023-05-13T01:10:49Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - On the Accuracy of Hotelling-Type Tensor Deflation: A Random Tensor
Analysis [16.28927188636617]
階数-$r$ の $sum_i=1r beta_i A_i + W$ の非対称スパイクモデルを考える。
本研究では, ホテルリング型デフレに関する研究を行った。
論文 参考訳(メタデータ) (2022-11-16T16:01:56Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Overparametrized linear dimensionality reductions: From projection
pursuit to two-layer neural networks [10.368585938419619]
$mathbbRd$に$n$のデータポイントのクラウドが与えられると、$mathbbRd$の$m$次元部分空間へのすべての射影を考える。
この確率分布の集まりは、$n,d$が大きくなるとどのように見えるか?
この極限の低次元射影として生じる $mathbbRm$ の確率分布の集合の α$ を $mathscrF_m で表すと、$mathscrF_ に新たな内界と外界を確立する。
論文 参考訳(メタデータ) (2022-06-14T00:07:33Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - A Law of Robustness beyond Isoperimetry [84.33752026418045]
我々は、任意の分布上でニューラルネットワークパラメータを補間する頑健性の低い$Omega(sqrtn/p)$を証明した。
次に、$n=mathrmpoly(d)$のとき、スムーズなデータに対する過度なパラメータ化の利点を示す。
我々は、$n=exp(omega(d))$ のとき、$O(1)$-Lipschitz の頑健な補間関数の存在を否定する。
論文 参考訳(メタデータ) (2022-02-23T16:10:23Z) - Polyak-Ruppert Averaged Q-Leaning is Statistically Efficient [90.14768299744792]
我々はPolyak-Ruppert 平均 Q-leaning (平均 Q-leaning) を用いた同期 Q-learning を$gamma$-discounted MDP で検討した。
繰り返し平均$barboldsymbolQ_T$に対して正規性を確立する。
要するに、我々の理論分析は、Q-Leaningの平均は統計的に効率的であることを示している。
論文 参考訳(メタデータ) (2021-12-29T14:47:56Z) - Fundamental tradeoffs between memorization and robustness in random
features and neural tangent regimes [15.76663241036412]
モデルがトレーニングのごく一部を記憶している場合、そのソボレフ・セミノルムは低い有界であることを示す。
実験によって初めて、(iv)ミンノルム補間器の堅牢性における多重発色現象が明らかになった。
論文 参考訳(メタデータ) (2021-06-04T17:52:50Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。