論文の概要: Deep Networks and the Multiple Manifold Problem
- arxiv url: http://arxiv.org/abs/2008.11245v2
- Date: Thu, 6 May 2021 06:55:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 03:25:06.430919
- Title: Deep Networks and the Multiple Manifold Problem
- Title(参考訳): ディープネットワークと多重多様体問題
- Authors: Sam Buchanan, Dar Gilboa, John Wright
- Abstract要約: マシンビジョンにおける応用をモデル化した二項分類タスクである多重多様体問題について検討し、深部完全連結ニューラルネットワークを用いて単位球面の2つの低次元部分多様体を分離する。
ネットワーク深さ$L$がデータの幾何的および統計的性質に対して大きい場合、ネットワーク幅は$L$で十分大きく成長することを示す。
本分析は,実際に動機付けられたモデル問題の文脈における奥行きと幅の具体的な利点を示す。
- 参考スコア(独自算出の注目度): 15.144495799445824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the multiple manifold problem, a binary classification task modeled
on applications in machine vision, in which a deep fully-connected neural
network is trained to separate two low-dimensional submanifolds of the unit
sphere. We provide an analysis of the one-dimensional case, proving for a
simple manifold configuration that when the network depth $L$ is large relative
to certain geometric and statistical properties of the data, the network width
$n$ grows as a sufficiently large polynomial in $L$, and the number of i.i.d.
samples from the manifolds is polynomial in $L$, randomly-initialized gradient
descent rapidly learns to classify the two manifolds perfectly with high
probability. Our analysis demonstrates concrete benefits of depth and width in
the context of a practically-motivated model problem: the depth acts as a
fitting resource, with larger depths corresponding to smoother networks that
can more readily separate the class manifolds, and the width acts as a
statistical resource, enabling concentration of the randomly-initialized
network and its gradients. The argument centers around the neural tangent
kernel and its role in the nonasymptotic analysis of training overparameterized
neural networks; to this literature, we contribute essentially optimal rates of
concentration for the neural tangent kernel of deep fully-connected networks,
requiring width $n \gtrsim L\,\mathrm{poly}(d_0)$ to achieve uniform
concentration of the initial kernel over a $d_0$-dimensional submanifold of the
unit sphere $\mathbb{S}^{n_0-1}$, and a nonasymptotic framework for
establishing generalization of networks trained in the NTK regime with
structured data. The proof makes heavy use of martingale concentration to
optimally treat statistical dependencies across layers of the initial random
network. This approach should be of use in establishing similar results for
other network architectures.
- Abstract(参考訳): 本研究では,単位球面の2つの低次元部分多様体を分離する深層完全連結ニューラルネットワークを訓練した,機械視の応用に基づく2値分類課題であるmultiple manifold problemについて検討する。
1次元の場合の解析により、データのある幾何学的・統計的性質に対してネットワーク深さ$l$が大きければ、ネットワーク幅$n$は十分大きな多項式として$l$で成長し、多様体からのi.i.d.サンプルの数は$l$で多項式であり、ランダムに初期化された勾配降下は急速に学習し、2つの多様体を高い確率で完全分類する。
本分析は, モデル問題の文脈における深度と幅の具体的な利点を示すものである: 深度は, よりスムーズなネットワークに対応する, よりスムーズなネットワークとして機能し, 幅は統計資源として機能し, ランダムに初期化されたネットワークとその勾配の集中を可能にする。
The argument centers around the neural tangent kernel and its role in the nonasymptotic analysis of training overparameterized neural networks; to this literature, we contribute essentially optimal rates of concentration for the neural tangent kernel of deep fully-connected networks, requiring width $n \gtrsim L\,\mathrm{poly}(d_0)$ to achieve uniform concentration of the initial kernel over a $d_0$-dimensional submanifold of the unit sphere $\mathbb{S}^{n_0-1}$, and a nonasymptotic framework for establishing generalization of networks trained in the NTK regime with structured data.
この証明はマルティンゲール濃度を多用し、初期ランダムネットワークの層にまたがる統計的依存関係を最適に扱う。
このアプローチは、他のネットワークアーキテクチャで同様の結果を得るのに役立ちます。
関連論文リスト
- Wide Neural Networks as Gaussian Processes: Lessons from Deep
Equilibrium Models [16.07760622196666]
本研究では,層間における共有重み行列を持つ無限深度ニューラルネットワークであるDeep equilibrium Model (DEQ)について検討する。
解析により,DEC層の幅が無限大に近づくにつれ,ガウス過程に収束することが明らかとなった。
注目すべきは、この収束は深さと幅の限界が交換されても成り立つことである。
論文 参考訳(メタデータ) (2023-10-16T19:00:43Z) - Efficient SGD Neural Network Training via Sublinear Activated Neuron
Identification [22.361338848134025]
本稿では,ReLUの活性化をシフトする2層ニューラルネットワークについて,幾何学的探索によるサブ線形時間における活性化ニューロンの同定を可能にする。
また、我々のアルゴリズムは、係数ノルム上界$M$とエラー項$epsilon$の2次ネットワークサイズで$O(M2/epsilon2)$時間に収束できることを示す。
論文 参考訳(メタデータ) (2023-07-13T05:33:44Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - The edge of chaos: quantum field theory and deep neural networks [0.0]
我々は、ディープニューラルネットワークの一般クラスに対応する量子場理論を明示的に構築する。
我々は、深さ$T$と幅$N$との比の摂動展開において、相関関数に対するループ補正を計算する。
我々の分析は、急速に出現するNN-QFT対応に対する第一原理のアプローチを提供し、ディープニューラルネットワークの臨界性の研究にいくつかの興味深い道を開く。
論文 参考訳(メタデータ) (2021-09-27T18:00:00Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Deep Networks Provably Classify Data on Curves [12.309532551321334]
本研究では, 完全連結ニューラルネットワークを用いて, 単位球上の2つの不連続な滑らかな曲線から引き出されたデータを分類するモデル問題について検討する。
i) ネットワーク深度が問題の難易度と (ii) ネットワーク幅と標本数に固有の性質に比例すると, ランダムな勾配降下は2つの曲線上のすべての点を高い確率で正しく分類する。
論文 参考訳(メタデータ) (2021-07-29T20:40:04Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - Theory of Deep Convolutional Neural Networks II: Spherical Analysis [9.099589602551573]
単位球面$mathbbSd-1$ of $mathbbRd$ 上の近似関数に適用された深部畳み込みニューラルネットワークの族を考える。
我々の解析は、近似関数がソボレフ空間 $Wr_infty (mathbbSd-1)$ に$r>0$ あるいは加法リッジ形式を取るとき、一様近似の速度を示す。
論文 参考訳(メタデータ) (2020-07-28T14:54:30Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。