論文の概要: Geometric structure of shallow neural networks and constructive ${\mathcal L}^2$ cost minimization
- arxiv url: http://arxiv.org/abs/2309.10370v3
- Date: Sat, 26 Jul 2025 00:18:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:55.072309
- Title: Geometric structure of shallow neural networks and constructive ${\mathcal L}^2$ cost minimization
- Title(参考訳): 浅部ニューラルネットワークの幾何学的構造と建設的${\mathcal L}^2$コスト最小化
- Authors: Thomas Chen, Patrícia Muñoz Ewald,
- Abstract要約: 我々は、$O(delta_P)$のコスト関数の最小値上に、$delta_P$がトレーニングデータの信号対雑音比を測定することを証明した。
入力空間の特定の$Q$-次元部分空間を$mathbb RM$とすることを示す。
- 参考スコア(独自算出の注目度): 1.189367612437469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we approach the problem of cost (loss) minimization in underparametrized shallow ReLU networks through the explicit construction of upper bounds which appeal to the structure of classification data, without use of gradient descent. A key focus is on elucidating the geometric structure of approximate and precise minimizers. We consider an $\mathcal{L}^2$ cost function, input space $\mathbb{R}^M$, output space ${\mathbb R}^Q$ with $Q\leq M$, and training input sample size that can be arbitrarily large. We prove an upper bound on the minimum of the cost function of order $O(\delta_P)$ where $\delta_P$ measures the signal-to-noise ratio of training data. In the special case $M=Q$, we explicitly determine an exact degenerate local minimum of the cost function, and show that the sharp value differs from the upper bound obtained for $Q\leq M$ by a relative error $O(\delta_P^2)$. The proof of the upper bound yields a constructively trained network; we show that it metrizes a particular $Q$-dimensional subspace in the input space ${\mathbb R}^M$. We comment on the characterization of the global minimum of the cost function in the given context.
- Abstract(参考訳): 本稿では、勾配勾配を使わずに、分類データの構造に訴える上限を明示的に構築することにより、過度にパラメータ化された浅部ReLUネットワークにおけるコスト(損失)最小化の問題にアプローチする。
鍵となる焦点は、近似的かつ正確な最小値の幾何学的構造を解明することである。
我々は、$\mathcal{L}^2$コスト関数、入力空間$\mathbb{R}^M$、出力空間${\mathbb R}^Q$ with $Q\leq M$、任意に大きい入力サンプルサイズを訓練する。
我々は、$O(\delta_P)$のコスト関数の最小値上の上限を証明し、$\delta_P$はトレーニングデータの信号対雑音比を測定する。
特別の場合、$M=Q$ において、コスト関数の正確な退化局所極小を明示的に決定し、そのシャープ値が、相対誤差$O(\delta_P^2)$ で得られた$Q\leq M$ の上限値と異なることを示す。
上界の証明は構成的に訓練されたネットワークとなり、入力空間 ${\mathbb R}^M$ 内の特定の$Q$-次元部分空間を測ることを示す。
我々は、与えられたコンテキストにおけるコスト関数のグローバルな最小値の特徴についてコメントする。
関連論文リスト
- Surrogate to Poincaré inequalities on manifolds for dimension reduction in nonlinear feature spaces [49.1574468325115]
連続微分可能な関数 $u:mathbbRd rightarrow mathbbRm$ を $g:mathbbRd rightarrow mathbbRm$, $mleq d$, $f : mathbbRm rightarrow mathbbRR$ という関数の合成によって近似することを目指している。
固定された$g$に対して、評価を含む古典回帰法を用いて$f$を構築する。
論文 参考訳(メタデータ) (2025-05-03T12:37:27Z) - Guessing Efficiently for Constrained Subspace Approximation [49.83981776254246]
制約付き部分空間近似のための一般的なフレームワークを導入する。
分割制約付き部分空間近似のための新しいアルゴリズムを$k$-meansクラスタリングに適用し、非負行列分解を投影する。
論文 参考訳(メタデータ) (2025-04-29T15:56:48Z) - Optimal Sketching for Residual Error Estimation for Matrix and Vector Norms [50.15964512954274]
線形スケッチを用いた行列とベクトルノルムの残差誤差推定問題について検討する。
これは、前作とほぼ同じスケッチサイズと精度で、経験的にかなり有利であることを示す。
また、スパースリカバリ問題に対して$Omega(k2/pn1-2/p)$低いバウンダリを示し、これは$mathrmpoly(log n)$ factorまで厳密である。
論文 参考訳(メタデータ) (2024-08-16T02:33:07Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。
SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。
次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。
この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文 参考訳(メタデータ) (2023-11-23T02:19:32Z) - $O(k)$-Equivariant Dimensionality Reduction on Stiefel Manifolds [2.0818404738530525]
多くの実世界のデータセットは、高次元のスティーフェル多様体とグラスマン多様体に、それぞれ$V_k(mathbbRN)$と$Gr(k, mathbbRN)$で存在する。
我々はtextitPrincipal Stiefel Coordinates (PSC) というアルゴリズムを提案し、データ次元を$V_k(mathbbRN)$から$V_k(mathbbRn)$に減らした。
論文 参考訳(メタデータ) (2023-09-19T17:21:12Z) - Geometric structure of Deep Learning networks and construction of global ${\mathcal L}^2$ minimizers [1.189367612437469]
我々は低パラメータ深層学習(DL)ネットワークにおける$mathcalL2$コスト関数の局所的および大域的最小化を明示的に決定する。
論文 参考訳(メタデータ) (2023-09-19T14:20:55Z) - Efficiently Learning One-Hidden-Layer ReLU Networks via Schur
Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。
本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文 参考訳(メタデータ) (2023-07-24T14:37:22Z) - Learning linear dynamical systems under convex constraints [4.4351901934764975]
線形力学系を単一軌道の$T$サンプルから同定する問題を考察する。
A*$は、制約のない設定に必要な値よりも$T$小さい値を確実に見積もることができる。
論文 参考訳(メタデータ) (2023-03-27T11:49:40Z) - Estimating the minimizer and the minimum value of a regression function
under passive design [72.85024381807466]
最小値 $boldsymbolx*$ と最小値 $f*$ を滑らかで凸な回帰関数 $f$ で推定する新しい手法を提案する。
2次リスクと$boldsymbolz_n$の最適化誤差、および$f*$を推定するリスクについて、漸近的でない上界を導出する。
論文 参考訳(メタデータ) (2022-11-29T18:38:40Z) - Optimal Approximation Rates for Deep ReLU Neural Networks on Sobolev and Besov Spaces [2.7195102129095003]
ReLU活性化関数を持つディープニューラルネットワークは、ソボレフ空間$Ws(L_q(Omega))$とBesov空間$Bs_r(L_q(Omega))$の関数を近似することができる。
この問題は、様々な分野におけるニューラルネットワークの適用を研究する際に重要である。
論文 参考訳(メタデータ) (2022-11-25T23:32:26Z) - Learning (Very) Simple Generative Models Is Hard [45.13248517769758]
我々は,$mathbbRdtobbRd'$の出力座標が$mathrmpoly(d)$ニューロンを持つ一層ReLUネットワークである場合でも,リアルタイムアルゴリズムが問題を解決可能であることを示す。
我々の証明の鍵となる要素は、コンパクトに支持されたピースワイズ線形関数$f$をニューラルネットワークで束ねたスロープで構築することであり、$mathcalN(0,1)$のプッシュフォワードは$mathcalのすべての低度モーメントと一致する。
論文 参考訳(メタデータ) (2022-05-31T17:59:09Z) - On minimal representations of shallow ReLU networks [0.0]
f$の最小表現は$n$、$n+1$または$n+2$のどちらかを使用する。
特に入力層が一次元の場合、最小表現は常に少なくとも$n+1$のニューロンで使用されるが、高次元設定では$n+2$のニューロンを必要とする関数が存在する。
論文 参考訳(メタデータ) (2021-08-12T10:22:24Z) - Geometry of the Loss Landscape in Overparameterized Neural Networks:
Symmetries and Invariances [9.390008801320024]
それぞれに1つの余分なニューロンを加えると、以前の離散ミニマを1つの多様体に接続するのに十分であることを示す。
対称性によって誘導される臨界部分空間の数が、大域ミニマ多様体を構成するアフィン部分空間の数を支配していることを示す。
論文 参考訳(メタデータ) (2021-05-25T21:19:07Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。