論文の概要: Global Convergence of Deep Networks with One Wide Layer Followed by
Pyramidal Topology
- arxiv url: http://arxiv.org/abs/2002.07867v3
- Date: Thu, 17 Dec 2020 19:45:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 19:33:36.612124
- Title: Global Convergence of Deep Networks with One Wide Layer Followed by
Pyramidal Topology
- Title(参考訳): 1つの広い層をもつ深層ネットワークのグローバル収束とピラミッドトポロジー
- Authors: Quynh Nguyen and Marco Mondelli
- Abstract要約: 深層ネットワークの場合、入力層に従えば1層$N$の幅が確保され、同様の保証が保証される。
残りの層は全て一定の幅を持つことができ、ピラミッドの位相を形成する。
- 参考スコア(独自算出の注目度): 28.49901662584467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have shown that gradient descent can find a global minimum for
over-parameterized neural networks where the widths of all the hidden layers
scale polynomially with $N$ ($N$ being the number of training samples). In this
paper, we prove that, for deep networks, a single layer of width $N$ following
the input layer suffices to ensure a similar guarantee. In particular, all the
remaining layers are allowed to have constant widths, and form a pyramidal
topology. We show an application of our result to the widely used LeCun's
initialization and obtain an over-parameterization requirement for the single
wide layer of order $N^2.$
- Abstract(参考訳): 最近の研究により、勾配降下は、すべての隠れた層が多項式的にスケールし、n$ (n$ はトレーニングサンプルの数) でスケールする、過パラメータニューラルネットワークのグローバル最小値を見つけることができることが示されている。
本稿では,深層ネットワークにおいて,入力層に追従する1層の幅$N$が,同様の保証を確保するのに十分であることを示す。
特に、残りの全ての層は一定の幅を持ち、ピラミッドトポロジーを形成することができる。
我々は、広く使われているLeCunの初期化への我々の結果の適用を示し、オーダー$N^2.$の単一ワイド層に対するオーバーパラメータ化要件を得る。
関連論文リスト
- Sharper Guarantees for Learning Neural Network Classifiers with Gradient Methods [43.32546195968771]
本研究では,スムーズなアクティベーションを有するニューラルネットワークに対する勾配法におけるデータ依存収束と一般化挙動について検討する。
我々の結果は、よく確立されたRadecher複雑性に基づく境界の欠点を改善した。
XOR分布の分類において、NTK体制の結果に対して大きなステップサイズが大幅に改善されることが示されている。
論文 参考訳(メタデータ) (2024-10-13T21:49:29Z) - Deep Neural Networks: Multi-Classification and Universal Approximation [0.0]
我々は,幅2ドル,深さ2N+4M-1$のReLUディープニューラルネットワークが,$N$要素からなる任意のデータセットに対して有限標本記憶を達成できることを実証した。
また、$W1,p$関数を近似するための深さ推定と$Lp(Omega;mathbbRm)$ for $mgeq1$を近似するための幅推定も提供する。
論文 参考訳(メタデータ) (2024-09-10T14:31:21Z) - Implicit Hypersurface Approximation Capacity in Deep ReLU Networks [0.0]
本稿では,ReLUアクティベーションを用いたディープフィードフォワードニューラルネットワークの幾何近似理論を開発する。
幅$d+1$の深い完全連結ReLUネットワークは、そのゼロ輪郭として暗黙的に近似を構成することができることを示す。
論文 参考訳(メタデータ) (2024-07-04T11:34:42Z) - Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。
次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。
この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文 参考訳(メタデータ) (2023-11-23T02:19:32Z) - A Unified Algebraic Perspective on Lipschitz Neural Networks [88.14073994459586]
本稿では,様々なタイプの1-Lipschitzニューラルネットワークを統一する新しい視点を提案する。
そこで本研究では,SDP(Common semidefinite Programming)条件の解析解を求めることによって,既存の多くの手法を導出し,一般化することができることを示す。
SDPベースのLipschitz Layers (SLL) と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。
論文 参考訳(メタデータ) (2023-03-06T14:31:09Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - On the Proof of Global Convergence of Gradient Descent for Deep ReLU
Networks with Linear Widths [9.42944841156154]
我々は、すべての隠れた層の幅が少なくとも$Omega(N8)$$$(N$はトレーニングサンプルの数)である場合、勾配勾配が大域的最適に収束することを示した。
論文 参考訳(メタデータ) (2021-01-24T00:29:19Z) - A simple geometric proof for the benefit of depth in ReLU networks [57.815699322370826]
本論文では, 多層フィードフォワードネットワークにおける深度の利点を, 整流活性化(深度分離)により証明する。
我々は、線形深さ($m$)と小さな定数幅($leq 4$)を持つ具体的なニューラルネットワークを示し、問題をゼロエラーで分類する。
論文 参考訳(メタデータ) (2021-01-18T15:40:27Z) - Revealing the Structure of Deep Neural Networks via Convex Duality [70.15611146583068]
我々は,正規化深層ニューラルネットワーク(DNN)について検討し,隠蔽層の構造を特徴付ける凸解析フレームワークを導入する。
正規正規化学習問題に対する最適隠蔽層重みの集合が凸集合の極点として明確に見出されることを示す。
ホワイトデータを持つ深部ReLUネットワークに同じ特徴を応用し、同じ重み付けが成り立つことを示す。
論文 参考訳(メタデータ) (2020-02-22T21:13:44Z) - Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文 参考訳(メタデータ) (2020-01-13T17:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。