論文の概要: Rethinking Bias-Variance Trade-off for Generalization of Neural Networks
- arxiv url: http://arxiv.org/abs/2002.11328v3
- Date: Tue, 8 Dec 2020 03:10:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 14:05:51.774078
- Title: Rethinking Bias-Variance Trade-off for Generalization of Neural Networks
- Title(参考訳): ニューラルネットワークの一般化に向けたバイアス分散トレードオフ再考
- Authors: Zitong Yang, Yaodong Yu, Chong You, Jacob Steinhardt, Yi Ma
- Abstract要約: ニューラルネットワークのバイアスとばらつきを測定することで、これに対する簡単な説明を提供する。
分散一様性は、考慮したすべてのモデルに対して頑健に起こる。
より深いモデルはバイアスを減らし、分布内および分布外データのばらつきを増加させる。
- 参考スコア(独自算出の注目度): 40.04927952870877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The classical bias-variance trade-off predicts that bias decreases and
variance increase with model complexity, leading to a U-shaped risk curve.
Recent work calls this into question for neural networks and other
over-parameterized models, for which it is often observed that larger models
generalize better. We provide a simple explanation for this by measuring the
bias and variance of neural networks: while the bias is monotonically
decreasing as in the classical theory, the variance is unimodal or bell-shaped:
it increases then decreases with the width of the network. We vary the network
architecture, loss function, and choice of dataset and confirm that variance
unimodality occurs robustly for all models we considered. The risk curve is the
sum of the bias and variance curves and displays different qualitative shapes
depending on the relative scale of bias and variance, with the double descent
curve observed in recent literature as a special case. We corroborate these
empirical results with a theoretical analysis of two-layer linear networks with
random first layer. Finally, evaluation on out-of-distribution data shows that
most of the drop in accuracy comes from increased bias while variance increases
by a relatively small amount. Moreover, we find that deeper models decrease
bias and increase variance for both in-distribution and out-of-distribution
data.
- Abstract(参考訳): 古典的なバイアス分散トレードオフはバイアスが減少し、モデルの複雑さによって分散が増加することを予測し、u字型のリスク曲線をもたらす。
最近の研究では、これをニューラルネットワークや他の過剰パラメータモデルに問題視しており、より大きなモデルの方がより一般化することがしばしば観察されている。
ニューラルネットワークのバイアスと分散を測定することで、このことに対する簡単な説明を提供する: バイアスは古典理論のように単調に減少するが、分散は単調またはベル型であり、ネットワークの幅によって増大する。
我々は、ネットワークアーキテクチャ、損失関数、データセットの選択を変化させ、分散一様性が考慮したすべてのモデルに対して堅牢に発生することを確認します。
リスク曲線はバイアスと分散曲線の和であり、バイアスと分散の相対スケールに応じて異なる定性的形状を示す。
この実験結果をランダムな第1層を持つ2層線形ネットワークの理論的解析で裏付ける。
最後に, 分布外データによる評価の結果, 精度の低下のほとんどはバイアスの増加によるものであり, ばらつきは比較的少ない。
さらに,より深いモデルでは偏りが減少し,分布内データと分布外データのばらつきが増加することがわかった。
関連論文リスト
- A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - It's an Alignment, Not a Trade-off: Revisiting Bias and Variance in Deep
Models [51.66015254740692]
深層学習に基づく分類モデルのアンサンブルでは, バイアスと分散がサンプルレベルで一致していることが示される。
我々はこの現象をキャリブレーションと神経崩壊という2つの理論的観点から研究する。
論文 参考訳(メタデータ) (2023-10-13T17:06:34Z) - Bias in Pruned Vision Models: In-Depth Analysis and Countermeasures [93.17009514112702]
ニューラルネットワークのパラメータのかなりの部分集合をゼロに設定するプルーニングは、モデル圧縮の最も一般的な方法の1つである。
この現象の既存の証拠にもかかわらず、ニューラルネットワークのプルーニングと誘導バイアスの関係はよく理解されていない。
論文 参考訳(メタデータ) (2023-04-25T07:42:06Z) - On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。
不変性はデータの変換におけるモデル予測の一貫性を測定する。
データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文 参考訳(メタデータ) (2022-07-14T17:08:25Z) - Fluctuations, Bias, Variance & Ensemble of Learners: Exact Asymptotics
for Convex Losses in High-Dimension [25.711297863946193]
我々は、異なる、しかし相関のある特徴に基づいて訓練された一般化線形モデルの集合における揺らぎの研究の理論を開発する。
一般凸損失と高次元限界における正則化のための経験的リスク最小化器の結合分布の完全な記述を提供する。
論文 参考訳(メタデータ) (2022-01-31T17:44:58Z) - Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。
そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文 参考訳(メタデータ) (2021-06-03T09:34:17Z) - Understanding Generalization in Adversarial Training via the
Bias-Variance Decomposition [39.108491135488286]
テストのリスクをバイアスと分散コンポーネントに分解します。
バイアスは摂動の大きさとともに単調に増加し、リスクの主要な用語であることがわかった。
一般化ギャップに対する一般的な説明は、代わりに分散が単調であることを予測している。
論文 参考訳(メタデータ) (2021-03-17T23:30:00Z) - Memorizing without overfitting: Bias, variance, and interpolation in
over-parameterized models [0.0]
バイアス分散トレードオフは教師あり学習における中心的な概念である。
現代のDeep Learningメソッドは、最先端のパフォーマンスを達成するために、このドグマを浮かび上がらせる。
論文 参考訳(メタデータ) (2020-10-26T22:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。