Fugu-MT 論文翻訳(概要): Geometric structure of shallow neural networks and constructive ${\mathcal L}^2$ cost minimization

論文の概要: Geometric structure of shallow neural networks and constructive ${\mathcal L}^2$ cost minimization

arxiv url: http://arxiv.org/abs/2309.10370v1
Date: Tue, 19 Sep 2023 07:12:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-20 15:54:31.491668
Title: Geometric structure of shallow neural networks and constructive ${\mathcal L}^2$ cost minimization
Title（参考訳）: 浅部ニューラルネットワークの幾何学的構造と建設的${\mathcal L}^2$コスト最小化
Authors: Thomas Chen, Patricia Mu\~noz Ewald
Abstract要約: 我々は位数$O(delta_P$)のコスト関数の最小値上の上限を証明する。入力空間内の$Q$-次元部分空間を$overlinex_0,j$,$j=1,dots,Q$で割った$mathbb RM$とする。
参考スコア（独自算出の注目度）: 1.4050802766699084
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we provide a geometric interpretation of the structure of shallow neural networks characterized by one hidden layer, a ramp activation function, an ${\mathcal L}^2$ Schatten class (or Hilbert-Schmidt) cost function, input space ${\mathbb R}^M$, output space ${\mathbb R}^Q$ with $Q\leq M$, and training input sample size $N>QM$. We prove an upper bound on the minimum of the cost function of order $O(\delta_P$ where $\delta_P$ measures the signal to noise ratio of training inputs. We obtain an approximate optimizer using projections adapted to the averages $\overline{x_{0,j}}$ of training input vectors belonging to the same output vector $y_j$, $j=1,\dots,Q$. In the special case $M=Q$, we explicitly determine an exact degenerate local minimum of the cost function; the sharp value differs from the upper bound obtained for $Q\leq M$ by a relative error $O(\delta_P^2)$. The proof of the upper bound yields a constructively trained network; we show that it metrizes the $Q$-dimensional subspace in the input space ${\mathbb R}^M$ spanned by $\overline{x_{0,j}}$, $j=1,\dots,Q$. We comment on the characterization of the global minimum of the cost function in the given context.
Abstract（参考訳）: 本稿では,1つの隠れ層,ランプ活性化関数,${\mathcal l}^2$ schatten クラス(あるいは hilbert-schmidt)コスト関数,入力空間 ${\mathbb r}^m$,出力空間 ${\mathbb r}^q$ with $q\leq m$,入力サンプルサイズ $n>qm$ を特徴とする浅層ニューラルネットワークの構造を幾何学的に解釈する。我々は、$O(\delta_P$, $\delta_P$)のコスト関数の最小値の上限を証明し、トレーニング入力のノイズ比に対する信号を測定する。同じ出力ベクトル $y_j$, $j=1,\dots,q$ に属する入力ベクトルを訓練する平均 $\overline{x_{0,j}}$ に対応する投影を用いた近似最適化器を得る。特別の場合、$M=Q$ では、コスト関数の正確な退化局所最小値を明示的に決定するが、そのシャープ値は、相対誤差$O(\delta_P^2)$ によって得られる上限値と異なる。上界の証明は構成的に訓練されたネットワークとなり、入力空間の$Q$-次元部分空間を${\mathbb R}^M$に$\overline{x_{0,j}}$,$j=1,\dots,Q$で割ることを示す。我々は、与えられた文脈におけるコスト関数のグローバル最小値の特徴についてコメントする。

関連論文リスト

Surrogate to Poincaré inequalities on manifolds for dimension reduction in nonlinear feature spaces [49.1574468325115]
連続微分可能な関数 $u:mathbbRd rightarrow mathbbRm$ を $g:mathbbRd rightarrow mathbbRm$, $mleq d$, $f : mathbbRm rightarrow mathbbRR$ という関数の合成によって近似することを目指している。固定された$g$に対して、評価を含む古典回帰法を用いて$f$を構築する。
論文参考訳（メタデータ） (2025-05-03T12:37:27Z)
Guessing Efficiently for Constrained Subspace Approximation [49.83981776254246]
制約付き部分空間近似のための一般的なフレームワークを導入する。分割制約付き部分空間近似のための新しいアルゴリズムを$k$-meansクラスタリングに適用し、非負行列分解を投影する。
論文参考訳（メタデータ） (2025-04-29T15:56:48Z)
Optimal Sketching for Residual Error Estimation for Matrix and Vector Norms [50.15964512954274]
線形スケッチを用いた行列とベクトルノルムの残差誤差推定問題について検討する。これは、前作とほぼ同じスケッチサイズと精度で、経験的にかなり有利であることを示す。また、スパースリカバリ問題に対して$Omega(k2/pn1-2/p)$低いバウンダリを示し、これは$mathrmpoly(log n)$ factorまで厳密である。
論文参考訳（メタデータ） (2024-08-16T02:33:07Z)
Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。 SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文参考訳（メタデータ） (2024-06-03T17:56:58Z)
Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文参考訳（メタデータ） (2024-02-06T15:39:09Z)
Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文参考訳（メタデータ） (2023-11-23T02:19:32Z)
$O(k)$-Equivariant Dimensionality Reduction on Stiefel Manifolds [2.0818404738530525]
多くの実世界のデータセットは、高次元のスティーフェル多様体とグラスマン多様体に、それぞれ$V_k(mathbbRN)$と$Gr(k, mathbbRN)$で存在する。我々はtextitPrincipal Stiefel Coordinates (PSC) というアルゴリズムを提案し、データ次元を$V_k(mathbbRN)$から$V_k(mathbbRn)$に減らした。
論文参考訳（メタデータ） (2023-09-19T17:21:12Z)
Geometric structure of Deep Learning networks and construction of global ${\mathcal L}^2$ minimizers [1.189367612437469]
我々は低パラメータ深層学習(DL)ネットワークにおける$mathcalL2$コスト関数の局所的および大域的最小化を明示的に決定する。
論文参考訳（メタデータ） (2023-09-19T14:20:55Z)
Efficiently Learning One-Hidden-Layer ReLU Networks via Schur Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文参考訳（メタデータ） (2023-07-24T14:37:22Z)
Learning linear dynamical systems under convex constraints [4.4351901934764975]
線形力学系を単一軌道の$T$サンプルから同定する問題を考察する。 A*$は、制約のない設定に必要な値よりも$T$小さい値を確実に見積もることができる。
論文参考訳（メタデータ） (2023-03-27T11:49:40Z)
Estimating the minimizer and the minimum value of a regression function under passive design [72.85024381807466]
最小値 $boldsymbolx*$ と最小値 $f*$ を滑らかで凸な回帰関数 $f$ で推定する新しい手法を提案する。 2次リスクと$boldsymbolz_n$の最適化誤差、および$f*$を推定するリスクについて、漸近的でない上界を導出する。
論文参考訳（メタデータ） (2022-11-29T18:38:40Z)
Optimal Approximation Rates for Deep ReLU Neural Networks on Sobolev and Besov Spaces [2.7195102129095003]
ReLU活性化関数を持つディープニューラルネットワークは、ソボレフ空間$Ws(L_q(Omega))$とBesov空間$Bs_r(L_q(Omega))$の関数を近似することができる。この問題は、様々な分野におけるニューラルネットワークの適用を研究する際に重要である。
論文参考訳（メタデータ） (2022-11-25T23:32:26Z)
Learning (Very) Simple Generative Models Is Hard [45.13248517769758]
我々は,$mathbbRdtobbRd'$の出力座標が$mathrmpoly(d)$ニューロンを持つ一層ReLUネットワークである場合でも,リアルタイムアルゴリズムが問題を解決可能であることを示す。我々の証明の鍵となる要素は、コンパクトに支持されたピースワイズ線形関数$f$をニューラルネットワークで束ねたスロープで構築することであり、$mathcalN(0,1)$のプッシュフォワードは$mathcalのすべての低度モーメントと一致する。
論文参考訳（メタデータ） (2022-05-31T17:59:09Z)
On minimal representations of shallow ReLU networks [0.0]
f$の最小表現は$n$、$n+1$または$n+2$のどちらかを使用する。特に入力層が一次元の場合、最小表現は常に少なくとも$n+1$のニューロンで使用されるが、高次元設定では$n+2$のニューロンを必要とする関数が存在する。
論文参考訳（メタデータ） (2021-08-12T10:22:24Z)
Geometry of the Loss Landscape in Overparameterized Neural Networks: Symmetries and Invariances [9.390008801320024]
それぞれに1つの余分なニューロンを加えると、以前の離散ミニマを1つの多様体に接続するのに十分であることを示す。対称性によって誘導される臨界部分空間の数が、大域ミニマ多様体を構成するアフィン部分空間の数を支配していることを示す。
論文参考訳（メタデータ） (2021-05-25T21:19:07Z)
Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。 ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。 ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文参考訳（メタデータ） (2020-05-29T07:20:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。