論文の概要: SGD Finds then Tunes Features in Two-Layer Neural Networks with
near-Optimal Sample Complexity: A Case Study in the XOR problem
- arxiv url: http://arxiv.org/abs/2309.15111v2
- Date: Mon, 2 Oct 2023 14:21:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 12:41:10.862904
- Title: SGD Finds then Tunes Features in Two-Layer Neural Networks with
near-Optimal Sample Complexity: A Case Study in the XOR problem
- Title(参考訳): SGDは、ほぼ最適サンプル複素数を持つ2層ニューラルネットワークにおけるチューンの特徴を見いだす:XOR問題におけるケーススタディ
- Authors: Margalit Glasgow
- Abstract要約: 本研究では,2層ニューラルネットワーク上でのミニバッチ降下勾配(SGD)の最適化過程について考察する。
二次 XOR' 関数 $y = -x_ix_j$ でラベル付けされた $d$-dimensional Boolean hypercube から得られるデータから、人口誤差 $o(1)$ と $d :textpolylog(d)$ のサンプルをトレーニングすることが可能であることを証明した。
- 参考スコア(独自算出の注目度): 1.3597551064547502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we consider the optimization process of minibatch stochastic
gradient descent (SGD) on a 2-layer neural network with data separated by a
quadratic ground truth function. We prove that with data drawn from the
$d$-dimensional Boolean hypercube labeled by the quadratic ``XOR'' function $y
= -x_ix_j$, it is possible to train to a population error $o(1)$ with $d
\:\text{polylog}(d)$ samples. Our result considers simultaneously training both
layers of the two-layer-neural network with ReLU activations via standard
minibatch SGD on the logistic loss. To our knowledge, this work is the first to
give a sample complexity of $\tilde{O}(d)$ for efficiently learning the XOR
function on isotropic data on a standard neural network with standard training.
Our main technique is showing that the network evolves in two phases: a
$\textit{signal-finding}$ phase where the network is small and many of the
neurons evolve independently to find features, and a $\textit{signal-heavy}$
phase, where SGD maintains and balances the features. We leverage the
simultaneous training of the layers to show that it is sufficient for only a
small fraction of the neurons to learn features, since those neurons will be
amplified by the simultaneous growth of their second layer weights.
- Abstract(参考訳): 本研究では,二次基底真理関数によって分離されたデータを持つ2層ニューラルネットワーク上でのミニバッチ確率勾配降下(sgd)の最適化過程について検討する。
二次的な ``xor'' 関数 $y = -x_ix_j$ でラベル付けされた$d$-dimensional boolean hypercube から引き出されたデータがあれば、$d \:\text{polylog}(d)$ のサンプルで人口エラー $o(1)$ にトレーニングすることができる。
本研究では,ロジスティック損失に対する標準ミニバッチsgdによるreluアクティベーションを用いて,二層神経ネットワークの両層を同時にトレーニングする。
私たちの知る限りでは、この研究は標準ニューラルネットワーク上の等方性データのxor関数を標準トレーニングで効率的に学習するために、最初に$\tilde{o}(d)$のサンプル複雑性を与える。
我々の主な手法は、ネットワークが小さく、多くのニューロンが独立して機能を見つけるために進化する$\textit{signal-finding}$フェーズと、SGDが機能を維持しバランスをとる$\textit{signal-heavy}$フェーズである。
我々は,2層目の重みの同時成長によって,2層目の重みが増幅されるため,少数のニューロンだけが特徴を学習するのに十分であることを示すために,重みの同時訓練を利用する。
関連論文リスト
- Preconditioned Gradient Descent Finds Over-Parameterized Neural Networks with Sharp Generalization for Nonparametric Regression [8.130817534654089]
本稿では、勾配降下(GD)またはその変種により訓練された2層ニューラルネットワークによる非パラメトリック回帰を考察する。
ニューラルネットワークが早期停止を伴う新しいプレコンディション付きグラディエント・ディフレクション(PGD)でトレーニングされ、ターゲット関数がディープラーニング文献において広く研究されているスペクトルバイアスを持つ場合、トレーニングされたネットワークは、特に、極小値の最大速度が$cO(1/n4alpha/(4alpha+1)$で制限されたシャープな一般化をレンダリングする。
論文 参考訳(メタデータ) (2024-07-16T03:38:34Z) - Matching the Statistical Query Lower Bound for k-sparse Parity Problems with Stochastic Gradient Descent [83.85536329832722]
勾配勾配降下(SGD)は,$d$次元ハイパーキューブ上の$k$パリティ問題を効率的に解くことができることを示す。
次に、SGDでトレーニングされたニューラルネットワークがどのようにして、小さな統計的エラーで$k$-parityの問題を解決するかを実証する。
論文 参考訳(メタデータ) (2024-04-18T17:57:53Z) - Sliding down the stairs: how correlated latent variables accelerate learning with neural networks [8.107431208836426]
入力累積に符号化された方向に沿った潜伏変数間の相関が高次相関から学習を高速化することを示す。
この結果は2層ニューラルネットワークのシミュレーションで確認された。
論文 参考訳(メタデータ) (2024-04-12T17:01:25Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Is Stochastic Gradient Descent Near Optimal? [0.0]
本研究では,多数のサンプルとクエリの総数を用いて,勾配勾配勾配の誤差が小さいことを示す。
このことは、SGDがJoen & Van Roy (arXiv:2203.00246) の情報理論的なサンプル複雑性境界を計算的に効率よく達成していることを示唆している。
論文 参考訳(メタデータ) (2022-09-18T18:26:43Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Fundamental tradeoffs between memorization and robustness in random
features and neural tangent regimes [15.76663241036412]
モデルがトレーニングのごく一部を記憶している場合、そのソボレフ・セミノルムは低い有界であることを示す。
実験によって初めて、(iv)ミンノルム補間器の堅牢性における多重発色現象が明らかになった。
論文 参考訳(メタデータ) (2021-06-04T17:52:50Z) - A case where a spindly two-layer linear network whips any neural network
with a fully connected input layer [24.132345589750592]
勾配降下によるスパース目標を効率的に学習するために,スパース入力層が必要であることを示す。
驚くべきことに、同じタイプの問題は、単純な2層線形ニューラルネットワークによって大幅に効率良く解決できる。
論文 参考訳(メタデータ) (2020-10-16T20:49:58Z) - Semi-supervised deep learning based on label propagation in a 2D
embedded space [117.9296191012968]
提案されたソリューションは、少数の教師なしイメージから多数の教師なしイメージにラベルを伝達し、ディープニューラルネットワークモデルをトレーニングする。
本稿では、より正確なラベル付きサンプルを反復してセットから深層ニューラルネットワーク(VGG-16)をトレーニングするループを提案する。
ラベル付きセットがイテレーションに沿って改善されるにつれて、ニューラルネットワークの機能が改善される。
論文 参考訳(メタデータ) (2020-08-02T20:08:54Z) - Towards Understanding Hierarchical Learning: Benefits of Neural
Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文 参考訳(メタデータ) (2020-06-24T02:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。