論文の概要: Random Feature Amplification: Feature Learning and Generalization in
Neural Networks
- arxiv url: http://arxiv.org/abs/2202.07626v1
- Date: Tue, 15 Feb 2022 18:18:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 14:22:16.670163
- Title: Random Feature Amplification: Feature Learning and Generalization in
Neural Networks
- Title(参考訳): ランダム特徴増幅:ニューラルネットワークにおける特徴学習と一般化
- Authors: Spencer Frei, Niladri S. Chatterji, Peter L. Bartlett
- Abstract要約: 勾配降下法により訓練された2層ReLUネットワークにおける特徴学習過程の特徴付けを行う。
線形分類器は分布のランダムな推定に勝るものの,勾配降下により訓練された2層ReLUネットワークはラベルノイズ率に近い一般化誤差を達成できることを示す。
- 参考スコア(独自算出の注目度): 41.46549857286511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we provide a characterization of the feature-learning process
in two-layer ReLU networks trained by gradient descent on the logistic loss
following random initialization. We consider data with binary labels that are
generated by an XOR-like function of the input features. We permit a constant
fraction of the training labels to be corrupted by an adversary. We show that,
although linear classifiers are no better than random guessing for the
distribution we consider, two-layer ReLU networks trained by gradient descent
achieve generalization error close to the label noise rate, refuting the
conjecture of Malach and Shalev-Shwartz that 'deeper is better only when
shallow is good'. We develop a novel proof technique that shows that at
initialization, the vast majority of neurons function as random features that
are only weakly correlated with useful features, and the gradient descent
dynamics 'amplify' these weak, random features to strong, useful features.
- Abstract(参考訳): 本研究では,ランダム初期化後のロジスティック損失の勾配降下により訓練された2層ReLUネットワークにおける特徴学習過程の特性評価を行う。
入力特徴のXOR様関数によって生成されるバイナリラベルを持つデータを考える。
トレーニングラベルの一定割合が敵によって破壊されることを許可します。
線形分類器は分布のランダムな推測に勝るものはないが、勾配降下により訓練された2層ReLUネットワークはラベルノイズ率に近い一般化誤差を達成し、マラーチとシャレフ=シュワルツの予想を「ディーパーは良いときのみよい」と反論している。
我々は,初期化時のニューロンのほとんどが,有用な特徴と弱い相関しか持たないランダムな特徴として機能し,勾配降下ダイナミクスがこれらの弱い,ランダムな特徴を強固で有用な特徴に「増幅」することを示す新しい証明手法を開発した。
関連論文リスト
- Benign Overfitting for Regression with Trained Two-Layer ReLU Networks [14.36840959836957]
本稿では,2層完全連結ニューラルネットワークを用いた最小二乗回帰問題と,勾配流によるReLU活性化関数について検討する。
最初の結果は一般化結果であり、基礎となる回帰関数や、それらが有界であること以外のノイズを仮定する必要はない。
論文 参考訳(メタデータ) (2024-10-08T16:54:23Z) - Asymptotics of feature learning in two-layer networks after one gradient-step [39.02152620420932]
本研究では,2層ニューラルネットワークがデータからどのように学習するかを考察し,カーネルの仕組みを改良する。
トレーニングネットワークをスパイクされたランダム特徴量(sRF)モデルでモデル化する。
高次元極限におけるsRFの一般化誤差を正確に記述する。
論文 参考訳(メタデータ) (2024-02-07T15:57:30Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Grokking as the Transition from Lazy to Rich Training Dynamics [35.186196991224286]
グルーキングは、ニューラルネットワークの列車の損失がテスト損失よりもはるかに早く減少するときに起こる。
グルーキングの主要な要因は、特徴学習の速度と、初期特徴と対象関数とのアライメントである。
論文 参考訳(メタデータ) (2023-10-09T19:33:21Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Learning an Invertible Output Mapping Can Mitigate Simplicity Bias in
Neural Networks [66.76034024335833]
バックボーンによって多様・複雑な特徴が学習される理由を考察し、その脆さは、主に最も単純な特徴に依存する線形分類ヘッドによるものである。
本稿では,学習した特徴がログから復元可能であることを保証するために,特徴再構成正則化器(FRR)を提案する。
我々は、最近導入された極端分布シフトを持つ半合成データセットにおいて、OOD精度が最大15%向上することを示した。
論文 参考訳(メタデータ) (2022-10-04T04:01:15Z) - Benign Overfitting without Linearity: Neural Network Classifiers Trained
by Gradient Descent for Noisy Linear Data [44.431266188350655]
勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。
ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、同時に最小限のテストエラーを達成できる。
線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形であるような環境で成り立っている。
論文 参考訳(メタデータ) (2022-02-11T23:04:00Z) - Learning Frequency Domain Approximation for Binary Neural Networks [68.79904499480025]
フーリエ周波数領域における符号関数の勾配を正弦関数の組み合わせを用いて推定し,BNNの訓練を行う。
いくつかのベンチマークデータセットとニューラルネットワークの実験により、この手法で学習したバイナリネットワークが最先端の精度を達成することが示されている。
論文 参考訳(メタデータ) (2021-03-01T08:25:26Z) - Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks
Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。
我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文 参考訳(メタデータ) (2020-02-11T15:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。