論文の概要: Geometric structure of shallow neural networks and constructive
${\mathcal L}^2$ cost minimization
- arxiv url: http://arxiv.org/abs/2309.10370v1
- Date: Tue, 19 Sep 2023 07:12:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 15:54:31.491668
- Title: Geometric structure of shallow neural networks and constructive
${\mathcal L}^2$ cost minimization
- Title(参考訳): 浅部ニューラルネットワークの幾何学的構造と建設的${\mathcal L}^2$コスト最小化
- Authors: Thomas Chen, Patricia Mu\~noz Ewald
- Abstract要約: 我々は位数$O(delta_P$)のコスト関数の最小値上の上限を証明する。
入力空間内の$Q$-次元部分空間を$overlinex_0,j$,$j=1,dots,Q$で割った$mathbb RM$とする。
- 参考スコア(独自算出の注目度): 1.4050802766699084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we provide a geometric interpretation of the structure of
shallow neural networks characterized by one hidden layer, a ramp activation
function, an ${\mathcal L}^2$ Schatten class (or Hilbert-Schmidt) cost
function, input space ${\mathbb R}^M$, output space ${\mathbb R}^Q$ with $Q\leq
M$, and training input sample size $N>QM$. We prove an upper bound on the
minimum of the cost function of order $O(\delta_P$ where $\delta_P$ measures
the signal to noise ratio of training inputs. We obtain an approximate
optimizer using projections adapted to the averages $\overline{x_{0,j}}$ of
training input vectors belonging to the same output vector $y_j$,
$j=1,\dots,Q$. In the special case $M=Q$, we explicitly determine an exact
degenerate local minimum of the cost function; the sharp value differs from the
upper bound obtained for $Q\leq M$ by a relative error $O(\delta_P^2)$. The
proof of the upper bound yields a constructively trained network; we show that
it metrizes the $Q$-dimensional subspace in the input space ${\mathbb R}^M$
spanned by $\overline{x_{0,j}}$, $j=1,\dots,Q$. We comment on the
characterization of the global minimum of the cost function in the given
context.
- Abstract(参考訳): 本稿では,1つの隠れ層,ランプ活性化関数,${\mathcal l}^2$ schatten クラス(あるいは hilbert-schmidt)コスト関数,入力空間 ${\mathbb r}^m$,出力空間 ${\mathbb r}^q$ with $q\leq m$,入力サンプルサイズ $n>qm$ を特徴とする浅層ニューラルネットワークの構造を幾何学的に解釈する。
我々は、$O(\delta_P$, $\delta_P$)のコスト関数の最小値の上限を証明し、トレーニング入力のノイズ比に対する信号を測定する。
同じ出力ベクトル $y_j$, $j=1,\dots,q$ に属する入力ベクトルを訓練する平均 $\overline{x_{0,j}}$ に対応する投影を用いた近似最適化器を得る。
特別の場合、$M=Q$ では、コスト関数の正確な退化局所最小値を明示的に決定するが、そのシャープ値は、相対誤差$O(\delta_P^2)$ によって得られる上限値と異なる。
上界の証明は構成的に訓練されたネットワークとなり、入力空間の$Q$-次元部分空間を${\mathbb R}^M$に$\overline{x_{0,j}}$,$j=1,\dots,Q$で割ることを示す。
我々は、与えられた文脈におけるコスト関数のグローバル最小値の特徴についてコメントする。
関連論文リスト
- Optimal Sketching for Residual Error Estimation for Matrix and Vector Norms [50.15964512954274]
線形スケッチを用いた行列とベクトルノルムの残差誤差推定問題について検討する。
これは、前作とほぼ同じスケッチサイズと精度で、経験的にかなり有利であることを示す。
また、スパースリカバリ問題に対して$Omega(k2/pn1-2/p)$低いバウンダリを示し、これは$mathrmpoly(log n)$ factorまで厳密である。
論文 参考訳(メタデータ) (2024-08-16T02:33:07Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。
SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。
次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。
この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文 参考訳(メタデータ) (2023-11-23T02:19:32Z) - Geometric structure of Deep Learning networks and construction of global ${\mathcal L}^2$ minimizers [1.189367612437469]
我々は低パラメータ深層学習(DL)ネットワークにおける$mathcalL2$コスト関数の局所的および大域的最小化を明示的に決定する。
論文 参考訳(メタデータ) (2023-09-19T14:20:55Z) - Efficiently Learning One-Hidden-Layer ReLU Networks via Schur
Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。
本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文 参考訳(メタデータ) (2023-07-24T14:37:22Z) - Estimating the minimizer and the minimum value of a regression function
under passive design [72.85024381807466]
最小値 $boldsymbolx*$ と最小値 $f*$ を滑らかで凸な回帰関数 $f$ で推定する新しい手法を提案する。
2次リスクと$boldsymbolz_n$の最適化誤差、および$f*$を推定するリスクについて、漸近的でない上界を導出する。
論文 参考訳(メタデータ) (2022-11-29T18:38:40Z) - Optimal Approximation Rates for Deep ReLU Neural Networks on Sobolev and Besov Spaces [2.7195102129095003]
ReLU活性化関数を持つディープニューラルネットワークは、ソボレフ空間$Ws(L_q(Omega))$とBesov空間$Bs_r(L_q(Omega))$の関数を近似することができる。
この問題は、様々な分野におけるニューラルネットワークの適用を研究する際に重要である。
論文 参考訳(メタデータ) (2022-11-25T23:32:26Z) - Learning (Very) Simple Generative Models Is Hard [45.13248517769758]
我々は,$mathbbRdtobbRd'$の出力座標が$mathrmpoly(d)$ニューロンを持つ一層ReLUネットワークである場合でも,リアルタイムアルゴリズムが問題を解決可能であることを示す。
我々の証明の鍵となる要素は、コンパクトに支持されたピースワイズ線形関数$f$をニューラルネットワークで束ねたスロープで構築することであり、$mathcalN(0,1)$のプッシュフォワードは$mathcalのすべての低度モーメントと一致する。
論文 参考訳(メタデータ) (2022-05-31T17:59:09Z) - On minimal representations of shallow ReLU networks [0.0]
f$の最小表現は$n$、$n+1$または$n+2$のどちらかを使用する。
特に入力層が一次元の場合、最小表現は常に少なくとも$n+1$のニューロンで使用されるが、高次元設定では$n+2$のニューロンを必要とする関数が存在する。
論文 参考訳(メタデータ) (2021-08-12T10:22:24Z) - Geometry of the Loss Landscape in Overparameterized Neural Networks:
Symmetries and Invariances [9.390008801320024]
それぞれに1つの余分なニューロンを加えると、以前の離散ミニマを1つの多様体に接続するのに十分であることを示す。
対称性によって誘導される臨界部分空間の数が、大域ミニマ多様体を構成するアフィン部分空間の数を支配していることを示す。
論文 参考訳(メタデータ) (2021-05-25T21:19:07Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。