論文の概要: Benign Overfitting and Grokking in ReLU Networks for XOR Cluster Data
- arxiv url: http://arxiv.org/abs/2310.02541v1
- Date: Wed, 4 Oct 2023 02:50:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 16:40:47.519557
- Title: Benign Overfitting and Grokking in ReLU Networks for XOR Cluster Data
- Title(参考訳): XORクラスタデータのためのReLUネットワークの冗長なオーバーフィッティングとグロッキング
- Authors: Zhiwei Xu, Yutong Wang, Spencer Frei, Gal Vardi, Wei Hu
- Abstract要約: 勾配降下(GD)によって訓練されたニューラルネットワークは、多くの驚くべき一般化挙動を示した。
これらの現象は、XORクラスタデータ上でGDによって訓練された2層ReLUネットワークにおいて、良好に発生することを示す。
後続のトレーニングステップでは、ネットワークはトレーニングデータにランダムラベルをいまだに適合させながら、ほぼ最適のテスト精度を達成し、"グロッキング"現象を示す。
- 参考スコア(独自算出の注目度): 42.870635753205185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural networks trained by gradient descent (GD) have exhibited a number of
surprising generalization behaviors. First, they can achieve a perfect fit to
noisy training data and still generalize near-optimally, showing that
overfitting can sometimes be benign. Second, they can undergo a period of
classical, harmful overfitting -- achieving a perfect fit to training data with
near-random performance on test data -- before transitioning ("grokking") to
near-optimal generalization later in training. In this work, we show that both
of these phenomena provably occur in two-layer ReLU networks trained by GD on
XOR cluster data where a constant fraction of the training labels are flipped.
In this setting, we show that after the first step of GD, the network achieves
100% training accuracy, perfectly fitting the noisy labels in the training
data, but achieves near-random test accuracy. At a later training step, the
network achieves near-optimal test accuracy while still fitting the random
labels in the training data, exhibiting a "grokking" phenomenon. This provides
the first theoretical result of benign overfitting in neural network
classification when the data distribution is not linearly separable. Our proofs
rely on analyzing the feature learning process under GD, which reveals that the
network implements a non-generalizable linear classifier after one step and
gradually learns generalizable features in later steps.
- Abstract(参考訳): 勾配降下(GD)によって訓練されたニューラルネットワークは、多くの驚くべき一般化挙動を示した。
まず、ノイズの多いトレーニングデータに完全に適合し、なおもほぼ最適に一般化することができ、過度に適合することがあることを示す。
第二に、彼らは古典的で有害なオーバーフィッティングの期間を経ることができます -- テストデータに対するほぼランダムなパフォーマンスを持つトレーニングデータに完璧に適合した上で、後にトレーニングにおいてほぼ最適な一般化に移行します。
本研究では,これら2つの現象が,トレーニングラベルの一定割合をフリップするXORクラスタデータ上でGDによりトレーニングされた2層ReLUネットワークで実現可能であることを示す。
この設定では、GDの最初のステップの後、ネットワークは100%のトレーニング精度を達成し、トレーニングデータにノイズラベルを完全に適合させるが、ほぼランダムなテスト精度を実現する。
後続のトレーニングステップでは、ネットワークはトレーニングデータにランダムラベルをいまだに適合させながら、ほぼ最適のテスト精度を達成し、"グロッキング"現象を示す。
これにより、データ分布が線形に分離できない場合、ニューラルネットワーク分類における良性オーバーフィットの最初の理論的結果が得られる。
我々の証明はgd下での機能学習プロセスを分析することに依存しており、ネットワークは1ステップ後に非一般化線形分類器を実装し、後段で徐々に一般化可能な特徴を学習する。
関連論文リスト
- Grokking as the Transition from Lazy to Rich Training Dynamics [35.186196991224286]
グルーキングは、ニューラルネットワークの列車の損失がテスト損失よりもはるかに早く減少するときに起こる。
グルーキングの主要な要因は、特徴学習の速度と、初期特徴と対象関数とのアライメントである。
論文 参考訳(メタデータ) (2023-10-09T19:33:21Z) - Benign Overfitting in Two-Layer ReLU Convolutional Neural Networks for
XOR Data [24.86314525762012]
勾配降下法により訓練されたReLU CNNがベイズ最適精度付近で実現できることを示す。
以上の結果から,CNNは高い相関性のある特徴が存在する場合でも,効率よくXOR問題を学習する能力を有することが明らかとなった。
論文 参考訳(メタデータ) (2023-10-03T11:31:37Z) - Boosted Dynamic Neural Networks [53.559833501288146]
典型的なEDNNは、ネットワークバックボーンの異なる層に複数の予測ヘッドを持つ。
モデルを最適化するために、これらの予測ヘッドとネットワークバックボーンは、トレーニングデータのバッチ毎にトレーニングされる。
トレーニングと2つのフェーズでのインプットの異なるテストは、トレーニングとデータ分散のテストのミスマッチを引き起こす。
EDNNを勾配強化にインスパイアされた付加モデルとして定式化し、モデルを効果的に最適化するための複数のトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T04:23:12Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Intersection of Parallels as an Early Stopping Criterion [64.8387564654474]
そこで本研究では,検証セットを必要とせずに,トレーニングイテレーションの早期停止点を見つける手法を提案する。
幅広い学習率において,コサイン距離基準 (CDC) と呼ばれる手法は,比較したすべての手法よりも平均的な一般化に寄与する。
論文 参考訳(メタデータ) (2022-08-19T19:42:41Z) - Learning from Data with Noisy Labels Using Temporal Self-Ensemble [11.245833546360386]
ディープニューラルネットワーク(DNN)はノイズラベルを記憶する膨大な能力を持つ。
現在最先端の手法では、損失の少ないサンプルを用いて二重ネットワークを訓練するコトレーニング方式が提案されている。
本稿では,単一のネットワークのみをトレーニングすることで,シンプルで効果的なロバストトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T08:16:31Z) - Invertible Neural Networks for Graph Prediction [22.140275054568985]
本研究では,ディープ・インバーチブル・ニューラルネットワークを用いた条件生成について述べる。
私たちの目標は,前処理と後処理の予測と生成を同時に行うことにあるので,エンドツーエンドのトレーニングアプローチを採用しています。
論文 参考訳(メタデータ) (2022-06-02T17:28:33Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Benign Overfitting without Linearity: Neural Network Classifiers Trained
by Gradient Descent for Noisy Linear Data [44.431266188350655]
勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。
ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、同時に最小限のテストエラーを達成できる。
線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形であるような環境で成り立っている。
論文 参考訳(メタデータ) (2022-02-11T23:04:00Z) - Provable Generalization of SGD-trained Neural Networks of Any Width in
the Presence of Adversarial Label Noise [85.59576523297568]
勾配降下法により学習した任意の幅の1層リークReLUネットワークを考察する。
sgdは,分布上の最良半空間に匹敵する分類精度を持つニューラルネットワークを生成できることを実証する。
論文 参考訳(メタデータ) (2021-01-04T18:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。