論文の概要: Geometric structure of Deep Learning networks and construction of global
${\mathcal L}^2$ minimizers
- arxiv url: http://arxiv.org/abs/2309.10639v1
- Date: Tue, 19 Sep 2023 14:20:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 14:13:39.841575
- Title: Geometric structure of Deep Learning networks and construction of global
${\mathcal L}^2$ minimizers
- Title(参考訳): 深層学習ネットワークの幾何学的構造とグローバル${\mathcal L}^2$ミニマの構築
- Authors: Thomas Chen, Patricia Mu\~noz Ewald
- Abstract要約: ディープラーニングネットワークの特徴は、隠蔽層$L$、ランプアクティベーション関数、$mathcal L2$ Schattenクラス(またはHilbert-Schmidt)コスト関数、および等次元$Qgeq1$の入力および出力空間$mathbb RQ$である。
Lgeq Q$ の場合、コスト関数の最小値の大域的最小値に対して明示的な最小値の族を構築し、縮退することを示す。
- 参考スコア(独自算出の注目度): 1.4050802766699084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we provide a geometric interpretation of the structure of Deep
Learning (DL) networks, characterized by $L$ hidden layers, a ramp activation
function, an ${\mathcal L}^2$ Schatten class (or Hilbert-Schmidt) cost
function, and input and output spaces ${\mathbb R}^Q$ with equal dimension
$Q\geq1$. The hidden layers are defined on spaces ${\mathbb R}^{Q}$, as well.
We apply our recent results on shallow neural networks to construct an explicit
family of minimizers for the global minimum of the cost function in the case
$L\geq Q$, which we show to be degenerate. In the context presented here, the
hidden layers of the DL network "curate" the training inputs by recursive
application of a truncation map that minimizes the noise to signal ratio of the
training inputs. Moreover, we determine a set of $2^Q-1$ distinct degenerate
local minima of the cost function.
- Abstract(参考訳): 本稿では,l$隠れ層,ランプ活性化関数,${\mathcal l}^2$ schatten クラス (あるいは hilbert-schmidt) コスト関数,入力および出力空間 ${\mathbb r}^q$ と等価次元 $q\geq1$ を特徴とする,ディープラーニング(dl)ネットワークの構造の幾何学的解釈を提案する。
隠れた層は空間 ${\mathbb r}^{q}$ 上でも定義される。
我々は,最近の浅層ニューラルネットワークに関する結果を適用し,l\geq q$の場合のコスト関数の最小最小値に対する最小値の明示的な族を構築する。
ここで示した文脈では、dlネットワークの隠れた層は、トレーニング入力のノイズと信号比を最小化するトランザクションマップの再帰的適用により、トレーニング入力を「キュレート」する。
さらに,コスト関数の縮退型局所最小値の集合を2^Q-1$で決定する。
関連論文リスト
- Deep Neural Networks: Multi-Classification and Universal Approximation [0.0]
我々は,幅2ドル,深さ2N+4M-1$のReLUディープニューラルネットワークが,$N$要素からなる任意のデータセットに対して有限標本記憶を達成できることを実証した。
また、$W1,p$関数を近似するための深さ推定と$Lp(Omega;mathbbRm)$ for $mgeq1$を近似するための幅推定も提供する。
論文 参考訳(メタデータ) (2024-09-10T14:31:21Z) - Implicit Hypersurface Approximation Capacity in Deep ReLU Networks [0.0]
本稿では,ReLUアクティベーションを用いたディープフィードフォワードニューラルネットワークの幾何近似理論を開発する。
幅$d+1$の深い完全連結ReLUネットワークは、そのゼロ輪郭として暗黙的に近似を構成することができることを示す。
論文 参考訳(メタデータ) (2024-07-04T11:34:42Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。
SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。
次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。
この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文 参考訳(メタデータ) (2023-11-23T02:19:32Z) - Geometric structure of shallow neural networks and constructive ${\mathcal L}^2$ cost minimization [1.189367612437469]
隠れた1つの層を持つ浅層ニューラルネットワーク、ReLUアクティベーション関数、$mathcal L2$ Schattenクラス(Hilbert-Schmidt)のコスト関数を考える。
我々は、$O(delta_P)$のコスト関数の最小値に対して、$delta_P$の信号とトレーニング入力のノイズ比を測る上限を証明した。
特別の場合、$M=Q$ において、コスト関数の正確な退化局所極小を明示的に決定し、そのシャープ値が a の$Qleq M$ に対して得られる上限値と異なることを示す。
論文 参考訳(メタデータ) (2023-09-19T07:12:41Z) - Efficiently Learning One-Hidden-Layer ReLU Networks via Schur
Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。
本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文 参考訳(メタデータ) (2023-07-24T14:37:22Z) - Understanding Deep Neural Function Approximation in Reinforcement
Learning via $\epsilon$-Greedy Exploration [53.90873926758026]
本稿では、強化学習(RL)における深部神経機能近似の理論的研究について述べる。
我々は、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$epsilon$-greedy探索により、バリューベースのアルゴリズムに焦点を当てる。
我々の解析は、ある平均測度$mu$の上の$L2(mathrmdmu)$-integrable空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。
論文 参考訳(メタデータ) (2022-09-15T15:42:47Z) - Gradient Descent for Low-Rank Functions [36.56489593549855]
例えば、深層ニューラルネットワークのトレーニングのような機械学習タスクでは、損失関数は入力のわずか数方向に大きく変化する。
提案した emphLowRank Descent は $mathcalO(plog(1/epsilon))$gd と $mathcalOp/epsilon2)$p/epsilon2)$を識別して $epsilon 勾配関数を求める。
論文 参考訳(メタデータ) (2022-06-16T15:58:05Z) - Small Covers for Near-Zero Sets of Polynomials and Learning Latent
Variable Models [56.98280399449707]
我々は、s$ of cardinality $m = (k/epsilon)o_d(k1/d)$ に対して $epsilon$-cover が存在することを示す。
構造的結果に基づいて,いくつかの基本的高次元確率モデル隠れ変数の学習アルゴリズムを改良した。
論文 参考訳(メタデータ) (2020-12-14T18:14:08Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。