論文の概要: Memorizing Gaussians with no over-parameterizaion via gradient decent on
neural networks
- arxiv url: http://arxiv.org/abs/2003.12895v1
- Date: Sat, 28 Mar 2020 21:45:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 23:27:15.659289
- Title: Memorizing Gaussians with no over-parameterizaion via gradient decent on
neural networks
- Title(参考訳): ニューラルネットワーク上の勾配による過パラメトリザイオンのないガウスの記憶
- Authors: Amit Daniely
- Abstract要約: 奥行き2つのネットワーク上の適切な勾配の1ステップは、$q$隠されたニューロンを持ち、$Omegaleft(fracdqlog4(d)right)$独立でランダムなラベル付きガウスを$mathbbRd$で記憶することができることを証明している。
その結果は、絶対値を含む大きな活性化関数のクラスに対して有効である。
- 参考スコア(独自算出の注目度): 27.374589803147025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We prove that a single step of gradient decent over depth two network, with
$q$ hidden neurons, starting from orthogonal initialization, can memorize
$\Omega\left(\frac{dq}{\log^4(d)}\right)$ independent and randomly labeled
Gaussians in $\mathbb{R}^d$. The result is valid for a large class of
activation functions, which includes the absolute value.
- Abstract(参考訳): 直交初期化から始まる$q$隠れニューロンを持つ勾配の1ステップは、$\Omega\left(\frac{dq}{\log^4(d)}\right)$独立かつランダムにラベル付けされたガウスを$\mathbb{R}^d$で記憶することができることを証明している。
その結果は、絶対値を含む大きな活性化関数のクラスに対して有効である。
関連論文リスト
- Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。
SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Memory capacity of two layer neural networks with smooth activations [27.33243506775655]
隠れニューロンと入力次元が$d$の2層ニューラルネットワークのメモリ容量を決定する。
我々は、ネットワークのヤコビアン(英語版)の正確な一般的なランクを導出する。
われわれのアプローチは、メモリ容量に関する以前の研究と異なり、より深いモデルへの拡張を約束している。
論文 参考訳(メタデータ) (2023-08-03T19:31:15Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Deformed semicircle law and concentration of nonlinear random matrices
for ultra-wide neural networks [29.03095282348978]
本稿では、$f(X)$に付随する2つの経験的カーネル行列のスペクトル分布の制限について検討する。
経験的カーネルによって誘導されるランダムな特徴回帰は、超広範体制下でのカーネル回帰の制限と同じ性能を達成することを示す。
論文 参考訳(メタデータ) (2021-09-20T05:25:52Z) - Efficient Algorithms for Learning Depth-2 Neural Networks with General
ReLU Activations [27.244958998196623]
一般のReLUアクティベーションを用いた未知の深度2フィードフォワードニューラルネットワークを学習するための時間とサンプル効率のアルゴリズムを提案する。
特に、f(x) = amathsfTsigma(WmathsfTx+b)$, ここで$x$はガウス分布から引き出され、$sigma(t) := max(t,0)$はReLU活性化である。
論文 参考訳(メタデータ) (2021-07-21T17:06:03Z) - Deep neural network approximation of analytic functions [91.3755431537592]
ニューラルネットワークの空間に エントロピーバウンド 片方向の線形活性化関数を持つ
我々は、ペナル化深部ニューラルネットワーク推定器の予測誤差に対するオラクルの不等式を導出する。
論文 参考訳(メタデータ) (2021-04-05T18:02:04Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z) - Complexity of Finding Stationary Points of Nonsmooth Nonconvex Functions [84.49087114959872]
非滑らかで非滑らかな関数の定常点を見つけるための最初の非漸近解析を提供する。
特に、アダマール半微分可能函数(おそらく非滑らか関数の最大のクラス)について研究する。
論文 参考訳(メタデータ) (2020-02-10T23:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。