論文の概要: Analysis of One-Hidden-Layer Neural Networks via the Resolvent Method
- arxiv url: http://arxiv.org/abs/2105.05115v1
- Date: Tue, 11 May 2021 15:17:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 14:01:43.426928
- Title: Analysis of One-Hidden-Layer Neural Networks via the Resolvent Method
- Title(参考訳): 解離法による一層ニューラルネットワークの解析
- Authors: Vanessa Piccolo and Dominik Schr\"oder
- Abstract要約: ランダムニューラルネットワークによって動機づけられた確率行列 $M = Y Yast$ と $Y = f(WX)$ を考える。
制限スペクトル分布のStieltjes変換は、いくつかの誤差項まで準自己整合方程式を満たすことを証明している。
さらに、前回の結果を加法バイアス $Y=f(WX+B)$ の場合に拡張し、$B$ は独立なランク1のガウス確率行列である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We compute the asymptotic empirical spectral distribution of a non-linear
random matrix model by using the resolvent method. Motivated by random neural
networks, we consider the random matrix $M = Y Y^\ast$ with $Y = f(WX)$, where
$W$ and $X$ are random rectangular matrices with i.i.d. centred entries and $f$
is a non-linear smooth function which is applied entry-wise. We prove that the
Stieltjes transform of the limiting spectral distribution satisfies a quartic
self-consistent equation up to some error terms, which is exactly the equation
obtained by [Pennington, Worah] and [Benigni, P\'{e}ch\'{e}] with the moment
method approach. In addition, we extend the previous results to the case of
additive bias $Y=f(WX+B)$ with $B$ being an independent rank-one Gaussian
random matrix, closer modelling the neural network infrastructures encountering
in practice. Our approach following the \emph{resolvent method} is more robust
than the moment method and is expected to provide insights also for models
where the combinatorics of the latter become intractable.
- Abstract(参考訳): 本研究では,非線形ランダム行列モデルの漸近的経験的スペクトル分布を解法を用いて計算する。
ランダムニューラルネットワークによって動機付けられたランダム行列 $M = Y Y^\ast$ with $Y = f(WX)$ ここで、$W$と$X$は、i.d.d.のランダム長方行列である。
centerdエントリと$f$は、エントリ的に適用される非線形滑らかな関数である。
制限スペクトル分布のスティルチェス変換は、モーメント法アプローチで得られる[ペニントン,ウラー] と[ベニグニ, P\'{e}ch\'{e}] によって得られる方程式と正確に一致する、いくつかの誤差項まで、クォート自己整合方程式を満たすことを証明する。
さらに、前回の結果を加算バイアス$Y=f(WX+B)$に拡張し、$B$は独立したランク1のガウス確率行列であり、実際に遭遇するニューラルネットワーク基盤をより深くモデル化する。
emph{resolvent method} に従うアプローチはモーメント法よりも頑健であり、後者の組合せが難解なモデルに対しても洞察を提供するものと期待されている。
関連論文リスト
- An approximation of the $S$ matrix for solving the Marchenko equation [0.0]
ここでは、有理関数の和として定式化された運動量$q$に対する$S$-行列依存の新たな近似と、truncated Sinc 級数を示す。
このアプローチにより、特定の解像度で$S$行列をポイントワイズで決定することができ、共鳴挙動などの重要な特徴を高精度に捉えることができる。
論文 参考訳(メタデータ) (2024-10-27T11:06:28Z) - An Equivalence Principle for the Spectrum of Random Inner-Product Kernel
Matrices with Polynomial Scalings [21.727073594338297]
この研究は、機械学習と統計学の応用によって動機付けられている。
スケーリングシステムにおいて,これらのランダム行列の経験的分布の弱い限界を確立する。
我々の結果は、マルテンコ・パストゥル法と半円法の間の自由加法的畳み込みとして特徴づけられる。
論文 参考訳(メタデータ) (2022-05-12T18:50:21Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - Largest Eigenvalues of the Conjugate Kernel of Single-Layered Neural
Networks [0.0]
最大固有値は、よく知られた線形確率行列のアンサンブルと同じ極限(確率)を持つことを示す。
これは機械学習の応用にとって大きな関心事かもしれない。
論文 参考訳(メタデータ) (2022-01-13T00:48:20Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - Deformed semicircle law and concentration of nonlinear random matrices
for ultra-wide neural networks [29.03095282348978]
本稿では、$f(X)$に付随する2つの経験的カーネル行列のスペクトル分布の制限について検討する。
経験的カーネルによって誘導されるランダムな特徴回帰は、超広範体制下でのカーネル回帰の制限と同じ性能を達成することを示す。
論文 参考訳(メタデータ) (2021-09-20T05:25:52Z) - Feature Cross Search via Submodular Optimization [58.15569071608769]
機能工学の基本的な基礎として機能横断探索について研究する。
この問題に対して単純なgreedy $(1-1/e)$-approximationアルゴリズムが存在することを示す。
論文 参考訳(メタデータ) (2021-07-05T16:58:31Z) - Linear-Sample Learning of Low-Rank Distributions [56.59844655107251]
ktimes k$, rank-r$, matrices to normalized $L_1$ distance requires $Omega(frackrepsilon2)$ sample。
我々は、$cal O(frackrepsilon2log2fracepsilon)$ sample, a number linear in the high dimension, and almost linear in the matrices, usually low, rank proofs.というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-30T19:10:32Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z) - Tight Nonparametric Convergence Rates for Stochastic Gradient Descent
under the Noiseless Linear Model [0.0]
このモデルに基づく最小二乗リスクに対する1パス, 固定段差勾配勾配の収束度を解析した。
特殊な場合として、ランダムなサンプリング点における値のノイズのない観測から単位区間上の実関数を推定するオンラインアルゴリズムを解析する。
論文 参考訳(メタデータ) (2020-06-15T08:25:50Z) - Linear Time Sinkhorn Divergences using Positive Features [51.50788603386766]
エントロピー正則化で最適な輸送を解くには、ベクトルに繰り返し適用される$ntimes n$ kernel matrixを計算する必要がある。
代わりに、$c(x,y)=-logdotpvarphi(x)varphi(y)$ ここで$varphi$は、地上空間から正のorthant $RRr_+$への写像であり、$rll n$である。
論文 参考訳(メタデータ) (2020-06-12T10:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。