論文の概要: How Uniform Random Weights Induce Non-uniform Bias: Typical Interpolating Neural Networks Generalize with Narrow Teachers
- arxiv url: http://arxiv.org/abs/2402.06323v2
- Date: Sun, 9 Jun 2024 14:32:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 03:39:46.077332
- Title: How Uniform Random Weights Induce Non-uniform Bias: Typical Interpolating Neural Networks Generalize with Narrow Teachers
- Title(参考訳): 非一様バイアスを誘発する一様ランダムウェイト--狭義教師に一般化された典型的な補間ニューラルネットワーク
- Authors: Gon Buzaglo, Itamar Harel, Mor Shpigel Nacson, Alon Brutzkus, Nathan Srebro, Daniel Soudry,
- Abstract要約: NN のパラメータ化に先立つフラット' が NN 関数に先立ってリッチな先行を誘導することを示す。
これにより、より単純な関数へのバイアスが発生し、表現するパラメータが少なくなる。
- 参考スコア(独自算出の注目度): 37.54951110709193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background. A main theoretical puzzle is why over-parameterized Neural Networks (NNs) generalize well when trained to zero loss (i.e., so they interpolate the data). Usually, the NN is trained with Stochastic Gradient Descent (SGD) or one of its variants. However, recent empirical work examined the generalization of a random NN that interpolates the data: the NN was sampled from a seemingly uniform prior over the parameters, conditioned on that the NN perfectly classifies the training set. Interestingly, such a NN sample typically generalized as well as SGD-trained NNs. Contributions. We prove that such a random NN interpolator typically generalizes well if there exists an underlying narrow ``teacher NN'' that agrees with the labels. Specifically, we show that such a `flat' prior over the NN parameterization induces a rich prior over the NN functions, due to the redundancy in the NN structure. In particular, this creates a bias towards simpler functions, which require less relevant parameters to represent -- enabling learning with a sample complexity approximately proportional to the complexity of the teacher (roughly, the number of non-redundant parameters), rather than the student's.
- Abstract(参考訳): 背景。
主な理論的パズルは、過度パラメータ化されたニューラルネットワーク(NN)が損失ゼロ(すなわち、データを補間する)に訓練されたときにうまく一般化する理由である。
通常、NNはSGD(Stochastic Gradient Descent)またはその変種で訓練される。
しかし、最近の実証研究は、データを補間するランダムNNの一般化を検証した:NNは、パラメータの前の一見均一な状態からサンプリングされ、NNがトレーニングセットを完全に分類することを条件とした。
興味深いことに、そのようなNNサンプルは一般的にSGDで訓練されたNNと同様に一般化された。
貢献。
このようなランダムNN補間器は、ラベルに一致する下層の狭い '‘teacher NN'' が存在する場合、典型的にはうまく一般化する。
具体的には、NNのパラメータ化に先立ってそのような「フラット」が、NN構造の冗長性のために、NN関数よりもリッチな事前を誘導することを示す。
特に、これはより単純な関数に対するバイアスを生み出します。これは、生徒ではなく、教師の複雑さ(主に非冗長なパラメータの数)にほぼ比例した、サンプルの複雑さによる学習を可能にします。
関連論文リスト
- Neural Redshift: Random Networks are not Random Functions [28.357640341268745]
NNには固有の「単純さバイアス」がないことを示す。
代替アーキテクチャは、あらゆるレベルの複雑さに対してバイアスで構築することができる。
これは、トレーニングされたモデルによって実装されたソリューションを制御するための有望な道を指す。
論文 参考訳(メタデータ) (2024-03-04T17:33:20Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Do Neural Networks Generalize from Self-Averaging Sub-classifiers in the
Same Way As Adaptive Boosting? [0.0]
我々の研究は、なぜニューラルネットワークが一般化されるのかを説明することを目指している。
我々の知る限り、我々は、強化された分類器の一般化とディープNNの一般化の関連性を確立する最初の著者である。
我々の実験的証拠と理論的分析から、降雨で訓練されたNNは、補間後の一般化現象の一般的な説明に引用されるように、補間サブクラス化子に対して同様の自己破壊行動を示すことが示唆された。
論文 参考訳(メタデータ) (2023-02-14T09:20:33Z) - Norm-based Generalization Bounds for Compositionally Sparse Neural
Networks [11.987589603961622]
畳み込みニューラルネットワークを含む多層スパースReLUニューラルネットワークに対する一般化境界を証明した。
これらの結果から, 深いニューラルネットワークの成功には, 対象関数の組成空間が重要であることが示唆された。
論文 参考訳(メタデータ) (2023-01-28T00:06:22Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Extrapolation and Spectral Bias of Neural Nets with Hadamard Product: a
Polynomial Net Study [55.12108376616355]
NTKの研究は典型的なニューラルネットワークアーキテクチャに特化しているが、アダマール製品(NNs-Hp)を用いたニューラルネットワークには不完全である。
本研究では,ニューラルネットワークの特別なクラスであるNNs-Hpに対する有限幅Kの定式化を導出する。
我々は,カーネル回帰予測器と関連するNTKとの等価性を証明し,NTKの適用範囲を拡大する。
論文 参考訳(メタデータ) (2022-09-16T06:36:06Z) - Deep Learning meets Nonparametric Regression: Are Weight-Decayed DNNs Locally Adaptive? [16.105097124039602]
古典的非パラメトリック回帰問題のレンズからニューラルネットワーク(NN)の理論を研究する。
私たちの研究は、なぜ深さが重要なのか、そしてNNがカーネルメソッドよりも強力であるかについて、新たな光を当てています。
論文 参考訳(メタデータ) (2022-04-20T17:55:16Z) - Deep Stable neural networks: large-width asymptotics and convergence
rates [3.0108936184913295]
NNの層上に幅が無限大になるにつれて、適切な再スケールされたディープ・スタブル・NNは安定SPに弱収束することを示す。
非三角形NNの構造のため、これは非標準問題であり、新しい自己完結型帰納的アプローチを提案する。
論文 参考訳(メタデータ) (2021-08-02T12:18:00Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。