論文の概要: Optimization Variance: Exploring Generalization Properties of DNNs
- arxiv url: http://arxiv.org/abs/2106.01714v1
- Date: Thu, 3 Jun 2021 09:34:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 12:18:16.885576
- Title: Optimization Variance: Exploring Generalization Properties of DNNs
- Title(参考訳): 最適化変数:DNNの一般化特性を探る
- Authors: Xiao Zhang, Dongrui Wu, Haoyi Xiong, Bo Dai
- Abstract要約: ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。
そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
- 参考スコア(独自算出の注目度): 83.78477167211315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unlike the conventional wisdom in statistical learning theory, the test error
of a deep neural network (DNN) often demonstrates double descent: as the model
complexity increases, it first follows a classical U-shaped curve and then
shows a second descent. Through bias-variance decomposition, recent studies
revealed that the bell-shaped variance is the major cause of model-wise double
descent (when the DNN is widened gradually). This paper investigates epoch-wise
double descent, i.e., the test error of a DNN also shows double descent as the
number of training epoches increases. By extending the bias-variance analysis
to epoch-wise double descent of the zero-one loss, we surprisingly find that
the variance itself, without the bias, varies consistently with the test error.
Inspired by this result, we propose a novel metric, optimization variance (OV),
to measure the diversity of model updates caused by the stochastic gradients of
random training batches drawn in the same iteration. OV can be estimated using
samples from the training set only but correlates well with the (unknown)
\emph{test} error, and hence early stopping may be achieved without using a
validation set.
- Abstract(参考訳): 統計学習理論における従来の知恵とは異なり、ディープニューラルネットワーク(DNN)のテスト誤差はしばしば二重降下を示す。
近年の研究では、バイアス分散の分解により、ベル形状の分散がモデルワイド二重降下の主な原因であることが判明した(DNNは徐々に拡大している)。
本稿は,DNNの試験誤差が,トレーニングエポッチの数の増加に伴って2重降下を示すという,画期的な2重降下について検討する。
バイアス分散解析をゼロワン損失のエポック方向の二重降下に拡張することで、バイアスのない分散自体がテストエラーと一貫して異なることが驚くべきことに判明した。
この結果に触発されて,同じイテレーションで描かれたランダムトレーニングバッチの確率的勾配によって生じるモデル更新の多様性を測定するための新しいメトリックである最適化分散(ov)を提案する。
OV はトレーニングセットからのサンプルだけで推定できるが、(未知の) \emph{test} エラーとよく相関しているため、早期停止は検証セットを使わずに達成できる。
関連論文リスト
- A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - It's an Alignment, Not a Trade-off: Revisiting Bias and Variance in Deep
Models [51.66015254740692]
深層学習に基づく分類モデルのアンサンブルでは, バイアスと分散がサンプルレベルで一致していることが示される。
我々はこの現象をキャリブレーションと神経崩壊という2つの理論的観点から研究する。
論文 参考訳(メタデータ) (2023-10-13T17:06:34Z) - Robust Modeling of Unknown Dynamical Systems via Ensemble Averaged
Learning [2.523610673302386]
最近の研究は、ディープニューラルネットワーク(DNN)による未知のシステムの進化に関するデータ駆動学習に焦点を当てている。
本稿では,一般化誤差の分散を低減する計算手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T15:17:53Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Memorizing without overfitting: Bias, variance, and interpolation in
over-parameterized models [0.0]
バイアス分散トレードオフは教師あり学習における中心的な概念である。
現代のDeep Learningメソッドは、最先端のパフォーマンスを達成するために、このドグマを浮かび上がらせる。
論文 参考訳(メタデータ) (2020-10-26T22:31:04Z) - Double Trouble in Double Descent : Bias and Variance(s) in the Lazy
Regime [32.65347128465841]
深層ニューラルネットワークは、トレーニングデータを完璧に補間しながら、素晴らしいパフォーマンスを達成することができる。
バイアス分散トレードオフのU曲線ではなく、テストエラーはしばしば「二重降下」に従う。
我々は、ニューラルネットワークのいわゆる遅延学習システムにおいて、この現象の定量的理論を開発する。
論文 参考訳(メタデータ) (2020-03-02T17:39:31Z) - Rethinking Bias-Variance Trade-off for Generalization of Neural Networks [40.04927952870877]
ニューラルネットワークのバイアスとばらつきを測定することで、これに対する簡単な説明を提供する。
分散一様性は、考慮したすべてのモデルに対して頑健に起こる。
より深いモデルはバイアスを減らし、分布内および分布外データのばらつきを増加させる。
論文 参考訳(メタデータ) (2020-02-26T07:21:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。