論文の概要: Learning and generalization of one-hidden-layer neural networks, going
beyond standard Gaussian data
- arxiv url: http://arxiv.org/abs/2207.03615v1
- Date: Thu, 7 Jul 2022 23:27:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-11 14:02:07.415978
- Title: Learning and generalization of one-hidden-layer neural networks, going
beyond standard Gaussian data
- Title(参考訳): 標準ガウスデータを超えた単層ニューラルネットワークの学習と一般化
- Authors: Hongkang Li, Shuai Zhang, Meng Wang
- Abstract要約: 本稿では,入力特徴がガウス混合モデルに従えば,一層ニューラルネットワークの収束と反復を解析する。
本論文は,入力分布がサンプルに与える影響と学習率に与える影響を初めて特徴付ける。
- 参考スコア(独自算出の注目度): 14.379261299138147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper analyzes the convergence and generalization of training a
one-hidden-layer neural network when the input features follow the Gaussian
mixture model consisting of a finite number of Gaussian distributions. Assuming
the labels are generated from a teacher model with an unknown ground truth
weight, the learning problem is to estimate the underlying teacher model by
minimizing a non-convex risk function over a student neural network. With a
finite number of training samples, referred to the sample complexity, the
iterations are proved to converge linearly to a critical point with guaranteed
generalization error. In addition, for the first time, this paper characterizes
the impact of the input distributions on the sample complexity and the learning
rate.
- Abstract(参考訳): 本稿では,入力特徴が有限個のガウス分布からなるガウス混合モデルに従う場合の1階層ニューラルネットワークの学習の収束と一般化について解析する。
ラベルが未知の基底真理重みを持つ教師モデルから生成されると仮定すると、学習問題は、生徒ニューラルネットワーク上の非凸リスク関数を最小化することにより、教師モデルの基礎を推定することである。
サンプル複雑性と呼ばれる有限個のトレーニングサンプルでは、反復は一般化誤差が保証された臨界点に線形収束することが証明される。
また,本論文では,入力分布がサンプルの複雑さと学習率に与える影響を初めて明らかにした。
関連論文リスト
- Fundamental limits of overparametrized shallow neural networks for
supervised learning [11.136777922498355]
本研究では,教師ネットワークが生成した入力-出力ペアから学習した2層ニューラルネットワークについて検討する。
この結果は,トレーニングデータとネットワーク重み間の相互情報,すなわちベイズ最適一般化誤差に関連する境界の形で得られる。
論文 参考訳(メタデータ) (2023-07-11T08:30:50Z) - Joint Edge-Model Sparse Learning is Provably Efficient for Graph Neural
Networks [89.28881869440433]
本稿では,グラフニューラルネットワーク(GNN)における結合エッジモデルスパース学習の理論的特徴について述べる。
解析学的には、重要なノードをサンプリングし、最小のマグニチュードでプルーニングニューロンをサンプリングすることで、サンプルの複雑さを減らし、テスト精度を損なうことなく収束を改善することができる。
論文 参考訳(メタデータ) (2023-02-06T16:54:20Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Capturing the learning curves of generic features maps for realistic
data sets with a teacher-student model [24.679669970832396]
教師学生モデルは、高次元教師付き学習タスクの典型的なケースパフォーマンスをクローズドな形で研究できる強力なフレームワークを提供する。
この設定では、ラベルはデータに割り当てられ、しばしばガウスのi.i.dとされる。
-教師モデルにより、ラベルを生成するパラメータの復元において、学生モデルの典型的な性能を特徴付けることが目的である。
論文 参考訳(メタデータ) (2021-02-16T12:49:15Z) - Compressive Sensing and Neural Networks from a Statistical Learning
Perspective [4.561032960211816]
線形測定の少ないスパース再構成に適したニューラルネットワークのクラスに対する一般化誤差解析を提案する。
現実的な条件下では、一般化誤差は層数で対数的にしかスケールせず、測定数ではほとんど線形である。
論文 参考訳(メタデータ) (2020-10-29T15:05:43Z) - The Gaussian equivalence of generative models for learning with shallow
neural networks [30.47878306277163]
本研究では,事前学習した生成モデルから得られたデータに基づいて学習したニューラルネットワークの性能について検討する。
この等価性を裏付ける厳密で解析的で数値的な証拠を3本提供します。
これらの結果は、現実的なデータを持つ機械学習モデルの理論研究への有効な道を開く。
論文 参考訳(メタデータ) (2020-06-25T21:20:09Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。