論文の概要: Geometric structure of shallow neural networks and constructive
${\mathcal L}^2$ cost minimization
- arxiv url: http://arxiv.org/abs/2309.10370v1
- Date: Tue, 19 Sep 2023 07:12:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 15:54:31.491668
- Title: Geometric structure of shallow neural networks and constructive
${\mathcal L}^2$ cost minimization
- Title(参考訳): 浅部ニューラルネットワークの幾何学的構造と建設的${\mathcal L}^2$コスト最小化
- Authors: Thomas Chen, Patricia Mu\~noz Ewald
- Abstract要約: 我々は位数$O(delta_P$)のコスト関数の最小値上の上限を証明する。
入力空間内の$Q$-次元部分空間を$overlinex_0,j$,$j=1,dots,Q$で割った$mathbb RM$とする。
- 参考スコア(独自算出の注目度): 1.4050802766699084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we provide a geometric interpretation of the structure of
shallow neural networks characterized by one hidden layer, a ramp activation
function, an ${\mathcal L}^2$ Schatten class (or Hilbert-Schmidt) cost
function, input space ${\mathbb R}^M$, output space ${\mathbb R}^Q$ with $Q\leq
M$, and training input sample size $N>QM$. We prove an upper bound on the
minimum of the cost function of order $O(\delta_P$ where $\delta_P$ measures
the signal to noise ratio of training inputs. We obtain an approximate
optimizer using projections adapted to the averages $\overline{x_{0,j}}$ of
training input vectors belonging to the same output vector $y_j$,
$j=1,\dots,Q$. In the special case $M=Q$, we explicitly determine an exact
degenerate local minimum of the cost function; the sharp value differs from the
upper bound obtained for $Q\leq M$ by a relative error $O(\delta_P^2)$. The
proof of the upper bound yields a constructively trained network; we show that
it metrizes the $Q$-dimensional subspace in the input space ${\mathbb R}^M$
spanned by $\overline{x_{0,j}}$, $j=1,\dots,Q$. We comment on the
characterization of the global minimum of the cost function in the given
context.
- Abstract(参考訳): 本稿では,1つの隠れ層,ランプ活性化関数,${\mathcal l}^2$ schatten クラス(あるいは hilbert-schmidt)コスト関数,入力空間 ${\mathbb r}^m$,出力空間 ${\mathbb r}^q$ with $q\leq m$,入力サンプルサイズ $n>qm$ を特徴とする浅層ニューラルネットワークの構造を幾何学的に解釈する。
我々は、$O(\delta_P$, $\delta_P$)のコスト関数の最小値の上限を証明し、トレーニング入力のノイズ比に対する信号を測定する。
同じ出力ベクトル $y_j$, $j=1,\dots,q$ に属する入力ベクトルを訓練する平均 $\overline{x_{0,j}}$ に対応する投影を用いた近似最適化器を得る。
特別の場合、$M=Q$ では、コスト関数の正確な退化局所最小値を明示的に決定するが、そのシャープ値は、相対誤差$O(\delta_P^2)$ によって得られる上限値と異なる。
上界の証明は構成的に訓練されたネットワークとなり、入力空間の$Q$-次元部分空間を${\mathbb R}^M$に$\overline{x_{0,j}}$,$j=1,\dots,Q$で割ることを示す。
我々は、与えられた文脈におけるコスト関数のグローバル最小値の特徴についてコメントする。
関連論文リスト
- Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。
次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。
この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文 参考訳(メタデータ) (2023-11-23T02:19:32Z) - $O(k)$-Equivariant Dimensionality Reduction on Stiefel Manifolds [2.2334941294830095]
多くの実世界のデータセットは、高次元のスティーフェル多様体とグラスマン多様体に、それぞれ$V_k(mathbbRN)$と$Gr(k, mathbbRN)$で存在する。
我々は,PSC(Principal Stiefel Coordinates)と呼ばれるアルゴリズムを提案し,データ次元を$V_k(mathbbRN)$から$V_k(mathbbRN)$へ$O(k)$-equivariantな方法で還元する。
論文 参考訳(メタデータ) (2023-09-19T17:21:12Z) - Geometric structure of Deep Learning networks and construction of global ${\mathcal L}^2$ minimizers [1.189367612437469]
我々は低パラメータ深層学習(DL)ネットワークにおける$mathcalL2$コスト関数の局所的および大域的最小化を明示的に決定する。
論文 参考訳(メタデータ) (2023-09-19T14:20:55Z) - Learning linear dynamical systems under convex constraints [5.025654873456756]
線形力学系を単一軌道の$T$サンプルから同定する問題を考察する。
フロベニウスノルムの非漸近誤差境界は、$A*$で$mathcalK$の局所サイズに依存する。
論文 参考訳(メタデータ) (2023-03-27T11:49:40Z) - Learning (Very) Simple Generative Models Is Hard [45.13248517769758]
我々は,$mathbbRdtobbRd'$の出力座標が$mathrmpoly(d)$ニューロンを持つ一層ReLUネットワークである場合でも,リアルタイムアルゴリズムが問題を解決可能であることを示す。
我々の証明の鍵となる要素は、コンパクトに支持されたピースワイズ線形関数$f$をニューラルネットワークで束ねたスロープで構築することであり、$mathcalN(0,1)$のプッシュフォワードは$mathcalのすべての低度モーメントと一致する。
論文 参考訳(メタデータ) (2022-05-31T17:59:09Z) - Fast Graph Sampling for Short Video Summarization using Gershgorin Disc
Alignment [52.577757919003844]
高速グラフサンプリングの最近の進歩を利用して,短い動画を複数の段落に効率よく要約する問題について検討する。
実験結果から,本アルゴリズムは最先端の手法と同等の映像要約を実現し,複雑さを大幅に低減した。
論文 参考訳(メタデータ) (2021-10-21T18:43:00Z) - On minimal representations of shallow ReLU networks [0.0]
f$の最小表現は$n$、$n+1$または$n+2$のどちらかを使用する。
特に入力層が一次元の場合、最小表現は常に少なくとも$n+1$のニューロンで使用されるが、高次元設定では$n+2$のニューロンを必要とする関数が存在する。
論文 参考訳(メタデータ) (2021-08-12T10:22:24Z) - Optimal Spectral Recovery of a Planted Vector in a Subspace [80.02218763267992]
我々は、$ell_4$ノルムが同じ$ell$ノルムを持つガウスベクトルと異なるプラントベクトル$v$の効率的な推定と検出について研究する。
規則$n rho gg sqrtN$ では、大クラスのスペクトル法(そしてより一般的には、入力の低次法)は、植込みベクトルの検出に失敗する。
論文 参考訳(メタデータ) (2021-05-31T16:10:49Z) - Learning a Latent Simplex in Input-Sparsity Time [58.30321592603066]
我々は、$AinmathbbRdtimes n$へのアクセスを考えると、潜入$k$-vertex simplex $KsubsetmathbbRdtimes n$を学習する問題を考える。
実行時間における$k$への依存は、トップ$k$特異値の質量が$a$であるという自然な仮定から不要であることを示す。
論文 参考訳(メタデータ) (2021-05-17T16:40:48Z) - The Average-Case Time Complexity of Certifying the Restricted Isometry
Property [66.65353643599899]
圧縮センシングにおいて、100万倍のN$センシング行列上の制限等尺性(RIP)はスパースベクトルの効率的な再構成を保証する。
Mtimes N$ matrices with i.d.$mathcalN(0,1/M)$ entry。
論文 参考訳(メタデータ) (2020-05-22T16:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。