論文の概要: The merged-staircase property: a necessary and nearly sufficient
condition for SGD learning of sparse functions on two-layer neural networks
- arxiv url: http://arxiv.org/abs/2202.08658v1
- Date: Thu, 17 Feb 2022 13:43:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-18 14:53:20.271833
- Title: The merged-staircase property: a necessary and nearly sufficient
condition for SGD learning of sparse functions on two-layer neural networks
- Title(参考訳): 統合階段特性:二層ニューラルネットワークにおけるスパース関数のSGD学習に必要なほぼ十分条件
- Authors: Emmanuel Abbe, Enric Boix-Adsera, Theodor Misiakiewicz
- Abstract要約: 我々は,SGD-Lrnability with $O(d)$ sample complexity in a large ambient dimension。
本研究の主な成果は, 階層的特性である「マージ階段特性」を特徴付けるものである。
鍵となるツールは、潜在低次元部分空間上で定義される函数に適用される新しい「次元自由」力学近似である。
- 参考スコア(独自算出の注目度): 24.428843425522103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is currently known how to characterize functions that neural networks can
learn with SGD for two extremal parameterizations: neural networks in the
linear regime, and neural networks with no structural constraints. However, for
the main parametrization of interest (non-linear but regular networks) no tight
characterization has yet been achieved, despite significant developments.
We take a step in this direction by considering depth-2 neural networks
trained by SGD in the mean-field regime. We consider functions on binary inputs
that depend on a latent low-dimensional subspace (i.e., small number of
coordinates). This regime is of interest since it is poorly understood how
neural networks routinely tackle high-dimensional datasets and adapt to latent
low-dimensional structure without suffering from the curse of dimensionality.
Accordingly, we study SGD-learnability with $O(d)$ sample complexity in a large
ambient dimension $d$.
Our main results characterize a hierarchical property, the "merged-staircase
property", that is both necessary and nearly sufficient for learning in this
setting.
We further show that non-linear training is necessary: for this class of
functions, linear methods on any feature map (e.g., the NTK) are not capable of
learning efficiently. The key tools are a new "dimension-free" dynamics
approximation result that applies to functions defined on a latent space of
low-dimension, a proof of global convergence based on polynomial identity
testing, and an improvement of lower bounds against linear methods for
non-almost orthogonal functions.
- Abstract(参考訳): 現在、ニューラルネットワークが2つの極端パラメータ化のためにSGDで学習できる機能、すなわち線形状態のニューラルネットワークと、構造的な制約のないニューラルネットワークを特徴付ける方法が知られている。
しかし、関心の主パラメトリゼーション(非線形だが正規のネットワーク)については、大きな発展にもかかわらず、厳密な特徴がまだ得られていない。
我々は,sgdにより訓練された深部2ニューラルネットワークを平均場法で検討することで,この方向の一歩を踏み出す。
我々は、潜在する低次元部分空間(つまり、少数の座標)に依存する二進入力上の函数を考える。
この体制は、ニューラルネットワークが高次元データセットに日常的に取り組み、次元性の呪いに苦しむことなく潜伏する低次元構造に適応する方法がよく理解されていないため、関心がある。
したがって、SGD-learnability with $O(d)$ sample complexity in a large ambient dimension $d$。
私たちの主な結果は階層的特性である"merged-staircase property"を特徴付けており、この設定で学習するには必要であり、ほぼ十分である。
この関数のクラスでは、任意の特徴写像(例えば、ntk)上の線形メソッドは効率的に学習できない。
鍵となるツールは、低次元の潜在空間上で定義される関数に適用される新しい「次元自由」動力学近似結果、多項式の恒等性テストに基づく大域収束の証明、非直交関数に対する線形法に対する下界の改善である。
関連論文リスト
- Visualising Feature Learning in Deep Neural Networks by Diagonalizing the Forward Feature Map [4.776836972093627]
本稿では,ディープニューラルネットワーク(DNN)を分解して特徴学習を分析する手法を提案する。
DNNはクラス数に等しい多くの固有関数に支配される最小特徴(MF)体制に収束する。
我々は、神経崩壊現象を、回帰のようなより広範なタスクに拡張できるカーネルイメージに再キャストする。
論文 参考訳(メタデータ) (2024-10-05T18:53:48Z) - Preconditioned Gradient Descent Finds Over-Parameterized Neural Networks with Sharp Generalization for Nonparametric Regression [8.130817534654089]
本稿では、勾配降下(GD)またはその変種により訓練された2層ニューラルネットワークによる非パラメトリック回帰を考察する。
ニューラルネットワークが早期停止を伴う新しいプレコンディション付きグラディエント・ディフレクション(PGD)でトレーニングされ、ターゲット関数がディープラーニング文献において広く研究されているスペクトルバイアスを持つ場合、トレーニングされたネットワークは、特に、極小値の最大速度が$cO(1/n4alpha/(4alpha+1)$で制限されたシャープな一般化をレンダリングする。
論文 参考訳(メタデータ) (2024-07-16T03:38:34Z) - Nonparametric regression using over-parameterized shallow ReLU neural networks [10.339057554827392]
ニューラルネットワークは、ある滑らかな関数クラスから関数を学習するために、最小収束率(対数係数まで)を達成することができることを示す。
回帰関数は、滑らかな$alpha(d+3)/2$あるいは浅いニューラルネットワークに対応する変分空間を持つH"古い空間から来ていると仮定される。
副産物として、浅いReLUニューラルネットワークの局所ラデマッハ複雑性に対する新しいサイズ非依存境界を導出する。
論文 参考訳(メタデータ) (2023-06-14T07:42:37Z) - ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models [9.96121040675476]
この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。
我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
論文 参考訳(メタデータ) (2023-05-24T22:10:12Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Exploring Linear Feature Disentanglement For Neural Networks [63.20827189693117]
Sigmoid、ReLU、Tanhなどの非線形活性化関数は、ニューラルネットワーク(NN)において大きな成功を収めた。
サンプルの複雑な非線形特性のため、これらの活性化関数の目的は、元の特徴空間から線形分離可能な特徴空間へサンプルを投影することである。
この現象は、現在の典型的なNNにおいて、すべての特徴がすべての非線形関数によって変換される必要があるかどうかを探求することに興味をそそる。
論文 参考訳(メタデータ) (2022-03-22T13:09:17Z) - Deep Networks Provably Classify Data on Curves [12.309532551321334]
本研究では, 完全連結ニューラルネットワークを用いて, 単位球上の2つの不連続な滑らかな曲線から引き出されたデータを分類するモデル問題について検討する。
i) ネットワーク深度が問題の難易度と (ii) ネットワーク幅と標本数に固有の性質に比例すると, ランダムな勾配降下は2つの曲線上のすべての点を高い確率で正しく分類する。
論文 参考訳(メタデータ) (2021-07-29T20:40:04Z) - Going Beyond Linear RL: Sample Efficient Neural Function Approximation [76.57464214864756]
2層ニューラルネットワークによる関数近似について検討する。
この結果は線形(あるいは可溶性次元)法で達成できることを大幅に改善する。
論文 参考訳(メタデータ) (2021-07-14T03:03:56Z) - Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。
損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文 参考訳(メタデータ) (2020-12-31T18:53:25Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。