論文の概要: Geometric structure of Deep Learning networks and construction of global
${\mathcal L}^2$ minimizers
- arxiv url: http://arxiv.org/abs/2309.10639v3
- Date: Sun, 17 Dec 2023 07:34:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 20:08:26.201584
- Title: Geometric structure of Deep Learning networks and construction of global
${\mathcal L}^2$ minimizers
- Title(参考訳): 深層学習ネットワークの幾何学的構造とグローバル${\mathcal L}^2$ミニマの構築
- Authors: Thomas Chen, Patricia Mu\~noz Ewald
- Abstract要約: 本稿では,Deep Learning(DL)ネットワークの構造を幾何学的に解釈する。
この構造は、$L$隠れ層、ReLUランプアクティベーション関数、$mathcalL2$ Schattenクラス(またはHilbert-Schmidt)コスト関数、入出力空間によって特徴づけられる。
- 参考スコア(独自算出の注目度): 1.4050802766699084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we provide a geometric interpretation of the structure of Deep
Learning (DL) networks, characterized by $L$ hidden layers, a ReLU ramp
activation function, an $\mathcal{L}^2$ Schatten class (or Hilbert-Schmidt)
cost function, and input and output spaces $\mathbb{R}^Q$ with equal dimension
$Q\geq1$. The hidden layers are also defined on $\mathbb{R}^{Q}$; the training
input size $N$ can be arbitrarily large - thus, we are considering the
underparametrized regime. We apply our recent results on shallow neural
networks to construct an explicit family of minimizers for the global minimum
of the cost function in the case $L\geq Q$, which we show to be degenerate. In
the context presented here, the hidden layers of the DL network "curate" the
training inputs by recursive application of a truncation map that minimizes the
noise to signal ratio of the training inputs. Moreover, we determine a set of
$2^Q-1$ distinct degenerate local minima of the cost function. Our
constructions make no use of gradient descent algorithms at all.
- Abstract(参考訳): 本稿では,L$隠れ層,ReLUランプ活性化関数,$\mathcal{L}^2$Schattenクラス(あるいはHilbert-Schmidt)コスト関数,および等次元$Q\geq1$の入力および出力空間$\mathbb{R}^Q$を特徴とする,ディープラーニング(DL)ネットワークの構造を幾何学的に解釈する。
隠れたレイヤは$\mathbb{r}^{q}$で定義され、トレーニング入力サイズ$n$は任意に大きい可能性がある。
我々は,最近の浅層ニューラルネットワークに関する結果を適用し,l\geq q$の場合のコスト関数の最小最小値に対する最小値の明示的な族を構築する。
ここで示した文脈では、dlネットワークの隠れた層は、トレーニング入力のノイズと信号比を最小化するトランザクションマップの再帰的適用により、トレーニング入力を「キュレート」する。
さらに,コスト関数の縮退型局所最小値の集合を2^Q-1$で決定する。
我々の構造は勾配降下アルゴリズムを全く利用しない。
関連論文リスト
- Deep Neural Networks: Multi-Classification and Universal Approximation [0.0]
我々は,幅2ドル,深さ2N+4M-1$のReLUディープニューラルネットワークが,$N$要素からなる任意のデータセットに対して有限標本記憶を達成できることを実証した。
また、$W1,p$関数を近似するための深さ推定と$Lp(Omega;mathbbRm)$ for $mgeq1$を近似するための幅推定も提供する。
論文 参考訳(メタデータ) (2024-09-10T14:31:21Z) - Implicit Hypersurface Approximation Capacity in Deep ReLU Networks [0.0]
本稿では,ReLUアクティベーションを用いたディープフィードフォワードニューラルネットワークの幾何近似理論を開発する。
幅$d+1$の深い完全連結ReLUネットワークは、そのゼロ輪郭として暗黙的に近似を構成することができることを示す。
論文 参考訳(メタデータ) (2024-07-04T11:34:42Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。
SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。
次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。
この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文 参考訳(メタデータ) (2023-11-23T02:19:32Z) - Geometric structure of shallow neural networks and constructive ${\mathcal L}^2$ cost minimization [1.189367612437469]
隠れた1つの層を持つ浅層ニューラルネットワーク、ReLUアクティベーション関数、$mathcal L2$ Schattenクラス(Hilbert-Schmidt)のコスト関数を考える。
我々は、$O(delta_P)$のコスト関数の最小値に対して、$delta_P$の信号とトレーニング入力のノイズ比を測る上限を証明した。
特別の場合、$M=Q$ において、コスト関数の正確な退化局所極小を明示的に決定し、そのシャープ値が a の$Qleq M$ に対して得られる上限値と異なることを示す。
論文 参考訳(メタデータ) (2023-09-19T07:12:41Z) - Efficiently Learning One-Hidden-Layer ReLU Networks via Schur
Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。
本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文 参考訳(メタデータ) (2023-07-24T14:37:22Z) - Understanding Deep Neural Function Approximation in Reinforcement
Learning via $\epsilon$-Greedy Exploration [53.90873926758026]
本稿では、強化学習(RL)における深部神経機能近似の理論的研究について述べる。
我々は、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$epsilon$-greedy探索により、バリューベースのアルゴリズムに焦点を当てる。
我々の解析は、ある平均測度$mu$の上の$L2(mathrmdmu)$-integrable空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。
論文 参考訳(メタデータ) (2022-09-15T15:42:47Z) - Gradient Descent for Low-Rank Functions [36.56489593549855]
例えば、深層ニューラルネットワークのトレーニングのような機械学習タスクでは、損失関数は入力のわずか数方向に大きく変化する。
提案した emphLowRank Descent は $mathcalO(plog(1/epsilon))$gd と $mathcalOp/epsilon2)$p/epsilon2)$を識別して $epsilon 勾配関数を求める。
論文 参考訳(メタデータ) (2022-06-16T15:58:05Z) - Small Covers for Near-Zero Sets of Polynomials and Learning Latent
Variable Models [56.98280399449707]
我々は、s$ of cardinality $m = (k/epsilon)o_d(k1/d)$ に対して $epsilon$-cover が存在することを示す。
構造的結果に基づいて,いくつかの基本的高次元確率モデル隠れ変数の学習アルゴリズムを改良した。
論文 参考訳(メタデータ) (2020-12-14T18:14:08Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。