論文の概要: Superpolynomial Lower Bounds for Learning One-Layer Neural Networks
using Gradient Descent
- arxiv url: http://arxiv.org/abs/2006.12011v2
- Date: Thu, 22 Oct 2020 21:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 05:29:01.639181
- Title: Superpolynomial Lower Bounds for Learning One-Layer Neural Networks
using Gradient Descent
- Title(参考訳): 勾配降下を用いた一層ニューラルネットワーク学習のための超多項下限法
- Authors: Surbhi Goel, Aravind Gollakota, Zhihan Jin, Sushrut Karmalkar, Adam
Klivans
- Abstract要約: また,2乗空間分布に対する勾配勾配勾配を用いた場合,時間的誤差が小さいことを示す。
分類では,任意の統計的クエリ(SQ)が時間内に小さなテストエラーを達成できないという,より強力な結果が得られる。
- 参考スコア(独自算出の注目度): 25.589302381660453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We prove the first superpolynomial lower bounds for learning one-layer neural
networks with respect to the Gaussian distribution using gradient descent. We
show that any classifier trained using gradient descent with respect to
square-loss will fail to achieve small test error in polynomial time given
access to samples labeled by a one-layer neural network. For classification, we
give a stronger result, namely that any statistical query (SQ) algorithm
(including gradient descent) will fail to achieve small test error in
polynomial time. Prior work held only for gradient descent run with small batch
sizes, required sharp activations, and applied to specific classes of queries.
Our lower bounds hold for broad classes of activations including ReLU and
sigmoid. The core of our result relies on a novel construction of a simple
family of neural networks that are exactly orthogonal with respect to all
spherically symmetric distributions.
- Abstract(参考訳): 勾配降下を用いたガウス分布に関して一層ニューラルネットワークを学習する最初の超多項下限を証明した。
一層ニューラルネットワークでラベル付けされたサンプルへのアクセスを前提とした多項式時間において, 勾配降下法を用いて訓練した分類器は, 誤差が小さいことを証明した。
分類において、任意の統計的クエリ(SQ)アルゴリズム(勾配降下を含む)が多項式時間で小さなテスト誤差を達成できないという、より強い結果を与える。
以前の作業は、小さなバッチサイズで実行され、鋭いアクティベーションが必要で、クエリの特定のクラスに適用される。
我々の下限は ReLU や sigmoid を含む幅広いアクティベーションのクラスに当てはまる。
この結果の核心は、球対称分布の全てに対して正確に直交する単純なニューラルネットワークのファミリーを新規に構築することに依存している。
関連論文リスト
- Sharper Guarantees for Learning Neural Network Classifiers with Gradient Methods [43.32546195968771]
本研究では,スムーズなアクティベーションを有するニューラルネットワークに対する勾配法におけるデータ依存収束と一般化挙動について検討する。
我々の結果は、よく確立されたRadecher複雑性に基づく境界の欠点を改善した。
XOR分布の分類において、NTK体制の結果に対して大きなステップサイズが大幅に改善されることが示されている。
論文 参考訳(メタデータ) (2024-10-13T21:49:29Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - A Framework for Provably Stable and Consistent Training of Deep
Feedforward Networks [4.21061712600981]
本稿では、教師付き(分類と回帰)および教師なし(強化学習)シナリオにおいて、ディープニューラルネットワークを訓練するための新しいアルゴリズムを提案する。
このアルゴリズムは、標準降下勾配と勾配クリッピング法を組み合わせたものである。
理論的および実験を通して、我々のアルゴリズム更新はばらつきが低く、トレーニング損失はスムーズな方法で減少することを示す。
論文 参考訳(メタデータ) (2023-05-20T07:18:06Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - A Unified Algebraic Perspective on Lipschitz Neural Networks [88.14073994459586]
本稿では,様々なタイプの1-Lipschitzニューラルネットワークを統一する新しい視点を提案する。
そこで本研究では,SDP(Common semidefinite Programming)条件の解析解を求めることによって,既存の多くの手法を導出し,一般化することができることを示す。
SDPベースのLipschitz Layers (SLL) と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。
論文 参考訳(メタデータ) (2023-03-06T14:31:09Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Non-Vacuous Generalisation Bounds for Shallow Neural Networks [5.799808780731661]
我々は、単一の隠蔽層を持つ特定の種類の浅いニューラルネットワークに焦点を当てる。
我々はPAC-ベイジアン理論を通じて新しい一般化を導出する。
ネットワークがMNISTとFashion-MNISTのバニラ勾配勾配降下で訓練される場合,我々の限界は経験的に非空洞である。
論文 参考訳(メタデータ) (2022-02-03T14:59:51Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - Achieving Small Test Error in Mildly Overparameterized Neural Networks [30.664282759625948]
時間内にこれらの点の1つを見つけるアルゴリズムを示す。
さらに、我々は、完全に接続されたニューラルネットワークのために、データ分布に追加の仮定で、時間アルゴリズムがあることを証明します。
論文 参考訳(メタデータ) (2021-04-24T06:47:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。