Fugu-MT 論文翻訳(概要): Geometric structure of Deep Learning networks and construction of global ${\mathcal L}^2$ minimizers

論文の概要: Geometric structure of Deep Learning networks and construction of global ${\mathcal L}^2$ minimizers

arxiv url: http://arxiv.org/abs/2309.10639v4
Date: Thu, 14 Mar 2024 16:29:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-16 02:42:46.616274
Title: Geometric structure of Deep Learning networks and construction of global ${\mathcal L}^2$ minimizers
Title（参考訳）: 深層学習ネットワークの幾何学的構造とグローバル${\mathcal L}^2$ミニマの構築
Authors: Thomas Chen, Patricia Muñoz Ewald,
Abstract要約: 我々は低パラメータ深層学習(DL)ネットワークにおける$mathcalL2$コスト関数の局所的および大域的最小化を明示的に決定する。
参考スコア（独自算出の注目度）: 1.189367612437469
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we explicitly determine local and global minimizers of the $\mathcal{L}^2$ cost function in underparametrized Deep Learning (DL) networks; our main goal is to shed light on their geometric structure and properties. We accomplish this by a direct construction, without invoking the gradient descent flow at any point of this work. We specifically consider $L$ hidden layers, a ReLU ramp activation function, an $\mathcal{L}^2$ Schatten class (or Hilbert-Schmidt) cost function, input and output spaces $\mathbb{R}^Q$ with equal dimension $Q\geq1$, and hidden layers also defined on $\mathbb{R}^{Q}$; the training inputs are assumed to be sufficiently clustered. The training input size $N$ can be arbitrarily large - thus, we are considering the underparametrized regime. More general settings are left to future work. We construct an explicit family of minimizers for the global minimum of the cost function in the case $L\geq Q$, which we show to be degenerate. Moreover, we determine a set of $2^Q-1$ distinct degenerate local minima of the cost function. In the context presented here, the concatenation of hidden layers of the DL network is reinterpreted as a recursive application of a {\em truncation map} which "curates" the training inputs by minimizing their noise to signal ratio.
Abstract（参考訳）: 本稿では,低パラメータ化ディープラーニング(DL)ネットワークにおける$\mathcal{L}^2$コスト関数の局所的および大域的最小化を明示的に決定する。本研究のどの点においても勾配降下流を誘導することなく, 直接構成によりこれを達成した。具体的には、$L$隠蔽層、ReLUランプ活性化関数、$\mathcal{L}^2$Schattenクラス(またはHilbert-Schmidt)コスト関数、入力および出力空間$\mathbb{R}^Q$と等しい次元の$Q\geq1$、および$\mathbb{R}^{Q}$で定義される隠蔽層についても検討する。トレーニング入力サイズ$N$は任意に大きいので、過度にパラメータ化されたレシエーションを検討しています。より一般的な設定は将来の作業に委ねられる。我々は、コスト関数の大域的最小値に対する明示的な最小値の族を$L\geq Q$ の場合に構築し、縮退することを示す。さらに,コスト関数の縮退型局所最小値の集合を2^Q-1$で決定する。ここでは、DLネットワークの隠れレイヤの結合を、信号比へのノイズを最小化し、トレーニング入力を"キュレート"する {\em truncation map}の再帰的応用として再解釈する。

関連論文リスト

Surrogate to Poincaré inequalities on manifolds for dimension reduction in nonlinear feature spaces [49.1574468325115]
連続微分可能な関数 $u:mathbbRd rightarrow mathbbRm$ を $g:mathbbRd rightarrow mathbbRm$, $mleq d$, $f : mathbbRm rightarrow mathbbRR$ という関数の合成によって近似することを目指している。固定された$g$に対して、評価を含む古典回帰法を用いて$f$を構築する。
論文参考訳（メタデータ） (2025-05-03T12:37:27Z)
Emergence and scaling laws in SGD learning of shallow neural networks [64.48316762675141]
等方性ガウスデータに基づいてP$ニューロンを持つ2層ニューラルネットワークを学習するためのオンライン勾配降下(SGD)の複雑さについて検討した。平均二乗誤差(MSE)を最小化するために,学生2層ネットワークのトレーニングのためのSGDダイナミックスを高精度に解析する。
論文参考訳（メタデータ） (2025-04-28T16:58:55Z)
Deep Neural Networks: Multi-Classification and Universal Approximation [0.0]
我々は,幅2ドル,深さ2N+4M-1$のReLUディープニューラルネットワークが,$N$要素からなる任意のデータセットに対して有限標本記憶を達成できることを実証した。また、$W1,p$関数を近似するための深さ推定と$Lp(Omega;mathbbRm)$ for $mgeq1$を近似するための幅推定も提供する。
論文参考訳（メタデータ） (2024-09-10T14:31:21Z)
Implicit Hypersurface Approximation Capacity in Deep ReLU Networks [0.0]
本稿では,ReLUアクティベーションを用いたディープフィードフォワードニューラルネットワークの幾何近似理論を開発する。幅$d+1$の深い完全連結ReLUネットワークは、そのゼロ輪郭として暗黙的に近似を構成することができることを示す。
論文参考訳（メタデータ） (2024-07-04T11:34:42Z)
Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。 SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文参考訳（メタデータ） (2024-06-03T17:56:58Z)
Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文参考訳（メタデータ） (2023-11-23T02:19:32Z)
Geometric structure of shallow neural networks and constructive ${\mathcal L}^2$ cost minimization [1.189367612437469]
隠れた1つの層を持つ浅層ニューラルネットワーク、ReLUアクティベーション関数、$mathcal L2$ Schattenクラス(Hilbert-Schmidt)のコスト関数を考える。我々は、$O(delta_P)$のコスト関数の最小値に対して、$delta_P$の信号とトレーニング入力のノイズ比を測る上限を証明した。特別の場合、$M=Q$ において、コスト関数の正確な退化局所極小を明示的に決定し、そのシャープ値が a の$Qleq M$ に対して得られる上限値と異なることを示す。
論文参考訳（メタデータ） (2023-09-19T07:12:41Z)
Efficiently Learning One-Hidden-Layer ReLU Networks via Schur Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文参考訳（メタデータ） (2023-07-24T14:37:22Z)
Understanding Deep Neural Function Approximation in Reinforcement Learning via $\epsilon$-Greedy Exploration [53.90873926758026]
本稿では、強化学習(RL)における深部神経機能近似の理論的研究について述べる。我々は、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$epsilon$-greedy探索により、バリューベースのアルゴリズムに焦点を当てる。我々の解析は、ある平均測度$mu$の上の$L2(mathrmdmu)$-integrable空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。
論文参考訳（メタデータ） (2022-09-15T15:42:47Z)
Gradient Descent for Low-Rank Functions [36.56489593549855]
例えば、深層ニューラルネットワークのトレーニングのような機械学習タスクでは、損失関数は入力のわずか数方向に大きく変化する。提案した emphLowRank Descent は $mathcalO(plog(1/epsilon))$gd と $mathcalOp/epsilon2)$p/epsilon2)$を識別して $epsilon 勾配関数を求める。
論文参考訳（メタデータ） (2022-06-16T15:58:05Z)
Small Covers for Near-Zero Sets of Polynomials and Learning Latent Variable Models [56.98280399449707]
我々は、s$ of cardinality $m = (k/epsilon)o_d(k1/d)$ に対して $epsilon$-cover が存在することを示す。構造的結果に基づいて,いくつかの基本的高次元確率モデル隠れ変数の学習アルゴリズムを改良した。
論文参考訳（メタデータ） (2020-12-14T18:14:08Z)
Nonparametric Learning of Two-Layer ReLU Residual Units [22.870658194212744]
本稿では,線形整列ユニット(ReLU)を活性化した2層残基を学習するアルゴリズムについて述べる。解析最小化器はそのパラメータと非線形性の観点から、正確な地上構造ネットワークを表現できる機能として層ワイドな目的を設計する。我々は,アルゴリズムの統計的強い一貫性を証明し,実験によるアルゴリズムの堅牢性とサンプル効率を実証する。
論文参考訳（メタデータ） (2020-08-17T22:11:26Z)
Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。 ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。 ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文参考訳（メタデータ） (2020-05-29T07:20:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。