論文の概要: Triple descent and the two kinds of overfitting: Where & why do they
appear?
- arxiv url: http://arxiv.org/abs/2006.03509v2
- Date: Tue, 13 Oct 2020 09:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 03:37:02.203860
- Title: Triple descent and the two kinds of overfitting: Where & why do they
appear?
- Title(参考訳): トリプル降下と2種類のオーバーフィッティング:どこで、なぜ現れるのか?
- Authors: St\'ephane d'Ascoli, Levent Sagun, Giulio Biroli
- Abstract要約: 明らかに類似しているにもかかわらず、ニューラルネットワークがノイズレグレッションタスクに適用された場合、両方のピークが共存可能であることを示す。
ピークの相対サイズは活性化関数の非線形性の度合いによって制御される。
このピークは非線形性によって暗黙的に正則化されることが示され、そのため高雑音下でのみ正則化される。
- 参考スコア(独自算出の注目度): 16.83019116094311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recent line of research has highlighted the existence of a "double descent"
phenomenon in deep learning, whereby increasing the number of training examples
$N$ causes the generalization error of neural networks to peak when $N$ is of
the same order as the number of parameters $P$. In earlier works, a similar
phenomenon was shown to exist in simpler models such as linear regression,
where the peak instead occurs when $N$ is equal to the input dimension $D$.
Since both peaks coincide with the interpolation threshold, they are often
conflated in the litterature. In this paper, we show that despite their
apparent similarity, these two scenarios are inherently different. In fact,
both peaks can co-exist when neural networks are applied to noisy regression
tasks. The relative size of the peaks is then governed by the degree of
nonlinearity of the activation function. Building on recent developments in the
analysis of random feature models, we provide a theoretical ground for this
sample-wise triple descent. As shown previously, the nonlinear peak at
$N\!=\!P$ is a true divergence caused by the extreme sensitivity of the output
function to both the noise corrupting the labels and the initialization of the
random features (or the weights in neural networks). This peak survives in the
absence of noise, but can be suppressed by regularization. In contrast, the
linear peak at $N\!=\!D$ is solely due to overfitting the noise in the labels,
and forms earlier during training. We show that this peak is implicitly
regularized by the nonlinearity, which is why it only becomes salient at high
noise and is weakly affected by explicit regularization. Throughout the paper,
we compare analytical results obtained in the random feature model with the
outcomes of numerical experiments involving deep neural networks.
- Abstract(参考訳): 最近の研究のラインでは、ディープラーニングにおける"二重降下"現象の存在を強調しており、トレーニング例の数を増やすことで、N$がパラメータの数と同じ順序である場合、N$はニューラルネットワークの一般化エラーをピークに導く。
初期の研究では、同様の現象が線形回帰のようなより単純なモデルに存在し、代わりにピークが$N$が入力次元$D$と等しいときに発生する。
両方のピークは補間しきい値と一致するため、しばしばリターチュアで膨らませられる。
本稿では,その類似性にもかかわらず,これらの2つのシナリオは本質的に異なることを示す。
実際、両方のピークは、ニューラルネットワークがノイズレグレッションタスクに適用されたときに共存する。
ピークの相対的な大きさは、アクティベーション関数の非線形度によって制御される。
ランダム特徴モデルの解析における最近の発展に基づき、このサンプルワイズ三重降の理論的根拠を提供する。
前述したように、非線形ピークは$N\!
=\!
P$は、ラベルを破損させるノイズとランダムな特徴(またはニューラルネットワークの重み)の初期化の両方に対して出力関数の極端な感度によって引き起こされる真のばらつきである。
このピークはノイズのない状態で存続するが、正規化によって抑制できる。
対照的に、線形ピークは$N\!
=\!
D$はラベルのノイズが過度に収まるためだけであり、トレーニング中に形成される。
このピークは非線形性によって暗黙的に正則化されるため、高雑音下でのみ正則化され、明示的な正則化によって弱く影響を受ける。
本稿では,ランダム特徴モデルを用いて得られた解析結果と,ディープニューラルネットワークを用いた数値実験の結果を比較した。
関連論文リスト
- Bayesian Inference with Deep Weakly Nonlinear Networks [57.95116787699412]
我々は,完全連結ニューラルネットワークによるベイズ推定が解けることを示す物理レベルの厳密さを示す。
我々はモデルエビデンスを計算し、任意の温度で1/N$で任意の順序に後続する手法を提供する。
論文 参考訳(メタデータ) (2024-05-26T17:08:04Z) - Asymptotics of Random Feature Regression Beyond the Linear Scaling
Regime [22.666759017118796]
機械学習の最近の進歩は、トレーニングデータの近くにトレーニングされた過度にパラメータ化されたモデルを使用することによって達成されている。
モデル複雑性と一般化はパラメータ数$p$にどのように依存するか?
特に、RFRRは近似と一般化パワーの直感的なトレードオフを示す。
論文 参考訳(メタデータ) (2024-03-13T00:59:25Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Understanding the Under-Coverage Bias in Uncertainty Estimation [58.03725169462616]
量子レグレッションは、現実の望ましいカバレッジレベルよりもアンファンダーカバー(enmphunder-cover)する傾向がある。
我々は、量子レグレッションが固有のアンダーカバーバイアスに悩まされていることを証明している。
我々の理論は、この過大被覆バイアスが特定の高次元パラメータ推定誤差に起因することを明らかにしている。
論文 参考訳(メタデータ) (2021-06-10T06:11:55Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Fundamental tradeoffs between memorization and robustness in random
features and neural tangent regimes [15.76663241036412]
モデルがトレーニングのごく一部を記憶している場合、そのソボレフ・セミノルムは低い有界であることを示す。
実験によって初めて、(iv)ミンノルム補間器の堅牢性における多重発色現象が明らかになった。
論文 参考訳(メタデータ) (2021-06-04T17:52:50Z) - Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。
そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文 参考訳(メタデータ) (2021-06-03T09:34:17Z) - Structure Learning in Inverse Ising Problems Using $\ell_2$-Regularized
Linear Estimator [8.89493507314525]
モデルミスマッチにも拘わらず,正則化を伴わずに線形回帰を用いてネットワーク構造を完璧に識別できることを示す。
本稿では,2段階推定器を提案する。第1段階では隆起回帰を用い,比較的小さな閾値で推算を行う。
適切な正規化係数としきい値を持つ推定器は、0M/N1$でもネットワーク構造の完全同定を実現する。
論文 参考訳(メタデータ) (2020-08-19T09:11:33Z) - The Interpolation Phase Transition in Neural Networks: Memorization and
Generalization under Lazy Training [10.72393527290646]
ニューラル・タンジェント(NT)体制における2層ニューラルネットワークの文脈における現象について検討した。
Ndgg n$ とすると、テストエラーは無限幅のカーネルに対するカーネルリッジ回帰の1つによってよく近似される。
後者は誤差リッジ回帰によりよく近似され、活性化関数の高次成分に関連する自己誘導項により正規化パラメータが増加する。
論文 参考訳(メタデータ) (2020-07-25T01:51:13Z) - A Random Matrix Analysis of Random Fourier Features: Beyond the Gaussian
Kernel, a Precise Phase Transition, and the Corresponding Double Descent [85.77233010209368]
本稿では、データサンプルの数が$n$である現実的な環境で、ランダムフーリエ(RFF)回帰の正確さを特徴付けます。
この分析はまた、大きな$n,p,N$のトレーニングとテスト回帰エラーの正確な推定も提供する。
論文 参考訳(メタデータ) (2020-06-09T02:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。