論文の概要: Double Trouble in Double Descent : Bias and Variance(s) in the Lazy
Regime
- arxiv url: http://arxiv.org/abs/2003.01054v2
- Date: Fri, 3 Apr 2020 07:42:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 04:50:06.447576
- Title: Double Trouble in Double Descent : Bias and Variance(s) in the Lazy
Regime
- Title(参考訳): 二重未熟症における二重障害 : 遅延レジームにおけるバイアスと変動
- Authors: St\'ephane d'Ascoli, Maria Refinetti, Giulio Biroli, Florent Krzakala
- Abstract要約: 深層ニューラルネットワークは、トレーニングデータを完璧に補間しながら、素晴らしいパフォーマンスを達成することができる。
バイアス分散トレードオフのU曲線ではなく、テストエラーはしばしば「二重降下」に従う。
我々は、ニューラルネットワークのいわゆる遅延学習システムにおいて、この現象の定量的理論を開発する。
- 参考スコア(独自算出の注目度): 32.65347128465841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks can achieve remarkable generalization performances while
interpolating the training data perfectly. Rather than the U-curve emblematic
of the bias-variance trade-off, their test error often follows a "double
descent" - a mark of the beneficial role of overparametrization. In this work,
we develop a quantitative theory for this phenomenon in the so-called lazy
learning regime of neural networks, by considering the problem of learning a
high-dimensional function with random features regression. We obtain a precise
asymptotic expression for the bias-variance decomposition of the test error,
and show that the bias displays a phase transition at the interpolation
threshold, beyond which it remains constant. We disentangle the variances
stemming from the sampling of the dataset, from the additive noise corrupting
the labels, and from the initialization of the weights. Following up on Geiger
et al. 2019, we first show that the latter two contributions are the crux of
the double descent: they lead to the overfitting peak at the interpolation
threshold and to the decay of the test error upon overparametrization. We then
quantify how they are suppressed by ensemble averaging the outputs of K
independently initialized estimators. When K is sent to infinity, the test
error remains constant beyond the interpolation threshold. We further compare
the effects of overparametrizing, ensembling and regularizing. Finally, we
present numerical experiments on classic deep learning setups to show that our
results hold qualitatively in realistic lazy learning scenarios.
- Abstract(参考訳): ディープニューラルネットワークは、トレーニングデータを完璧に補間しながら、驚くべき一般化性能を達成できる。
バイアス分散トレードオフを象徴するu曲線ではなく、そのテストエラーはしばしば「二重降下」と呼ばれる過剰パラメータ化の有益な役割を示すマークに従う。
本研究では,ランダム特徴量回帰を用いた高次元関数の学習問題を考慮し,ニューラルネットワークの遅延学習環境におけるこの現象の定量的理論を考案する。
テスト誤差のバイアス分散分解に対する正確な漸近的表現を得るとともに、バイアスが補間しきい値で位相遷移を示し、それ以外は一定であることを示す。
我々は、データセットのサンプリングから生じるばらつき、ラベルを劣化させる付加ノイズ、および重みの初期化から引き起こされるばらつきを解消する。
geiger et al. 2019 に続き、後者の2つの貢献は二重降下のcruxであり、それらは補間しきい値におけるオーバーフィッティングピークと、オーバーパラメトリゼーション時にテストエラーが崩壊することを示している。
次に、K の出力を独立に初期化推定器で平均化することにより、それらがどのように抑制されるかを定量化する。
K が無限大に送られるとき、テスト誤差は補間しきい値を超えて一定である。
さらに, 過パラメータ化, センス化, 正規化の効果を比較検討した。
最後に,古典的なディープラーニングシステムに関する数値実験を行い,現実的な遅延学習シナリオにおいて,結果が定性的に成り立つことを示す。
関連論文リスト
- Multiple Descents in Unsupervised Learning: The Role of Noise, Domain Shift and Anomalies [14.399035468023161]
教師なし学習における二重の子孫の存在について検討するが、これはほとんど注目されず、まだ完全には理解されていない領域である。
我々は、合成データと実データを用いて、様々なアプリケーションに対してモデルワイド、エポックワイド、サンプルワイドの二重降下を識別する。
論文 参考訳(メタデータ) (2024-06-17T16:24:23Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - SLA$^2$P: Self-supervised Anomaly Detection with Adversarial
Perturbation [77.71161225100927]
異常検出は、機械学習の基本的な問題であるが、難しい問題である。
本稿では,非教師付き異常検出のための新しい強力なフレームワークであるSLA$2$Pを提案する。
論文 参考訳(メタデータ) (2021-11-25T03:53:43Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。
そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文 参考訳(メタデータ) (2021-06-03T09:34:17Z) - Binary Classification of Gaussian Mixtures: Abundance of Support
Vectors, Benign Overfitting and Regularization [39.35822033674126]
生成ガウス混合モデルに基づく二項線形分類について検討する。
後者の分類誤差に関する新しい非漸近境界を導出する。
この結果は, 確率が一定である雑音モデルに拡張される。
論文 参考訳(メタデータ) (2020-11-18T07:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。