論文の概要: Self-Regularity of Non-Negative Output Weights for Overparameterized
Two-Layer Neural Networks
- arxiv url: http://arxiv.org/abs/2103.01887v1
- Date: Tue, 2 Mar 2021 17:36:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:51:11.486260
- Title: Self-Regularity of Non-Negative Output Weights for Overparameterized
Two-Layer Neural Networks
- Title(参考訳): 過パラメータ2層ニューラルネットワークにおける非負出力重みの自己規則性
- Authors: David Gamarnik, Eren C. K{\i}z{\i}lda\u{g}, and Ilias Zadik
- Abstract要約: 我々は、Sigmoid, rectified linear unit (ReLU) を用いた2層ニューラルネットワークの探索問題を考える。
そして、その境界を利用して、Emphfat-shattering dimensionを通じてそのようなネットワークの保証を確立する。
特に、我々の境界はサンプルの複雑さも良い(低次数$$d$のポリノミアル)。
- 参考スコア(独自算出の注目度): 16.64116123743938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of finding a two-layer neural network with sigmoid,
rectified linear unit (ReLU), or binary step activation functions that "fits" a
training data set as accurately as possible as quantified by the training
error; and study the following question: \emph{does a low training error
guarantee that the norm of the output layer (outer norm) itself is small?} We
answer affirmatively this question for the case of non-negative output weights.
Using a simple covering number argument, we establish that under quite mild
distributional assumptions on the input/label pairs; any such network achieving
a small training error on polynomially many data necessarily has a
well-controlled outer norm. Notably, our results (a) have a polynomial (in $d$)
sample complexity, (b) are independent of the number of hidden units (which can
potentially be very high), (c) are oblivious to the training algorithm; and (d)
require quite mild assumptions on the data (in particular the input vector
$X\in\mathbb{R}^d$ need not have independent coordinates). We then leverage our
bounds to establish generalization guarantees for such networks through
\emph{fat-shattering dimension}, a scale-sensitive measure of the complexity
class that the network architectures we investigate belong to. Notably, our
generalization bounds also have good sample complexity (polynomials in $d$ with
a low degree), and are in fact near-linear for some important cases of
interest.
- Abstract(参考訳): 我々は、Sigmoid, rectified linear unit (ReLU) またはバイナリステップアクティベーション関数を用いて、トレーニングエラーによって定量化されたトレーニングデータセットを可能な限り正確に“適合”する2層ニューラルネットワークを見つけることの問題を考察し、以下の質問に答える: \emph{does a low training error guarantees the norm of the output layer (outer norm) itself?
非負の出力重みの場合、この質問は肯定的に答える。
単純な被覆数引数を用いて,入力/ラベル対の分布分布的仮定をかなり軽度に満たし,そのようなネットワークが多項式数のデータに対して小さなトレーニングエラーを発生させることは,必ずしも制御の行き届いた外部ノルムであることを示す。
特に、(a) は多項式($d$) サンプル複雑性を持ち、(b) は隠れた単位数から独立しており(非常に高い可能性がある)、(c) はトレーニングアルゴリズムに従わない、そして(d) はデータに対して非常に穏やかな仮定を必要とする(特に入力ベクトル $x\in\mathbb{r}^d$ は独立座標を持つ必要はない)。
次に、境界を利用してそのようなネットワークに対する一般化保証を確立する。これは、我々が調査するネットワークアーキテクチャが属する複雑性クラスのスケール感知尺度である。
特に、我々の一般化境界は、良いサンプル複雑性(plynomials in $d$ with a low degree)を持ち、実際、いくつかの重要な場合においてほぼ直線的である。
関連論文リスト
- Sharper Guarantees for Learning Neural Network Classifiers with Gradient Methods [43.32546195968771]
本研究では,スムーズなアクティベーションを有するニューラルネットワークに対する勾配法におけるデータ依存収束と一般化挙動について検討する。
我々の結果は、よく確立されたRadecher複雑性に基づく境界の欠点を改善した。
XOR分布の分類において、NTK体制の結果に対して大きなステップサイズが大幅に改善されることが示されている。
論文 参考訳(メタデータ) (2024-10-13T21:49:29Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Sampling weights of deep neural networks [1.2370077627846041]
完全に接続されたニューラルネットワークの重みとバイアスに対して,効率的なサンプリングアルゴリズムと組み合わせた確率分布を導入する。
教師付き学習環境では、内部ネットワークパラメータの反復最適化や勾配計算は不要である。
サンプルネットワークが普遍近似器であることを証明する。
論文 参考訳(メタデータ) (2023-06-29T10:13:36Z) - Joint Edge-Model Sparse Learning is Provably Efficient for Graph Neural
Networks [89.28881869440433]
本稿では,グラフニューラルネットワーク(GNN)における結合エッジモデルスパース学習の理論的特徴について述べる。
解析学的には、重要なノードをサンプリングし、最小のマグニチュードでプルーニングニューロンをサンプリングすることで、サンプルの複雑さを減らし、テスト精度を損なうことなく収束を改善することができる。
論文 参考訳(メタデータ) (2023-02-06T16:54:20Z) - Is Stochastic Gradient Descent Near Optimal? [0.0]
本研究では,多数のサンプルとクエリの総数を用いて,勾配勾配勾配の誤差が小さいことを示す。
このことは、SGDがJoen & Van Roy (arXiv:2203.00246) の情報理論的なサンプル複雑性境界を計算的に効率よく達成していることを示唆している。
論文 参考訳(メタデータ) (2022-09-18T18:26:43Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Achieving Small Test Error in Mildly Overparameterized Neural Networks [30.664282759625948]
時間内にこれらの点の1つを見つけるアルゴリズムを示す。
さらに、我々は、完全に接続されたニューラルネットワークのために、データ分布に追加の仮定で、時間アルゴリズムがあることを証明します。
論文 参考訳(メタデータ) (2021-04-24T06:47:20Z) - Neural Networks are Convex Regularizers: Exact Polynomial-time Convex
Optimization Formulations for Two-layer Networks [70.15611146583068]
我々は、線形整列ユニット(ReLU)を用いた2層ニューラルネットワークのトレーニングの正確な表現を開発する。
我々の理論は半無限双対性と最小ノルム正規化を利用する。
論文 参考訳(メタデータ) (2020-02-24T21:32:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。