論文の概要: What causes the test error? Going beyond bias-variance via ANOVA
- arxiv url: http://arxiv.org/abs/2010.05170v3
- Date: Wed, 9 Jun 2021 06:46:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 13:16:44.195950
- Title: What causes the test error? Going beyond bias-variance via ANOVA
- Title(参考訳): テストエラーの原因は何でしょう?
ANOVAによるバイアス分散を超えて
- Authors: Licong Lin, Edgar Dobriban
- Abstract要約: 現代の機械学習手法は、しばしば過度にパラメータ化され、細かいレベルでのデータへの適応を可能にする。
最近の研究は、なぜ過度なパラメータ化が一般化に役立つのかをより深く理解することを目的としている。
本研究では, 差分解析(ANOVA)を用いて, テスト誤差の分散を対称的に分解する手法を提案する。
- 参考スコア(独自算出の注目度): 21.359033212191218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern machine learning methods are often overparametrized, allowing
adaptation to the data at a fine level. This can seem puzzling; in the worst
case, such models do not need to generalize. This puzzle inspired a great
amount of work, arguing when overparametrization reduces test error, in a
phenomenon called "double descent". Recent work aimed to understand in greater
depth why overparametrization is helpful for generalization. This leads to
discovering the unimodality of variance as a function of the level of
parametrization, and to decomposing the variance into that arising from label
noise, initialization, and randomness in the training data to understand the
sources of the error.
In this work we develop a deeper understanding of this area. Specifically, we
propose using the analysis of variance (ANOVA) to decompose the variance in the
test error in a symmetric way, for studying the generalization performance of
certain two-layer linear and non-linear networks. The advantage of the analysis
of variance is that it reveals the effects of initialization, label noise, and
training data more clearly than prior approaches. Moreover, we also study the
monotonicity and unimodality of the variance components. While prior work
studied the unimodality of the overall variance, we study the properties of
each term in variance decomposition.
One key insight is that in typical settings, the interaction between training
samples and initialization can dominate the variance; surprisingly being larger
than their marginal effect. Also, we characterize "phase transitions" where the
variance changes from unimodal to monotone. On a technical level, we leverage
advanced deterministic equivalent techniques for Haar random matrices, that --
to our knowledge -- have not yet been used in the area. We also verify our
results in numerical simulations and on empirical data examples.
- Abstract(参考訳): 現代の機械学習手法は、しばしば過度にパラメータ化され、細かいレベルでデータへの適応を可能にする。
最悪の場合、そのようなモデルは一般化する必要はない。
このパズルは、過小パラメータ化がテストエラーを減少させる「二重降下」と呼ばれる現象において、多くの仕事のきっかけとなった。
最近の研究は、なぜオーバーパラメータ化が一般化に役立つのかをより深く理解することを目的としている。
これにより、パラメトリゼーションのレベルの関数としての分散の一様性を発見し、ラベルノイズ、初期化、およびトレーニングデータのランダム性から生じる分散を分解してエラーの原因を理解する。
本研究では,この領域についてより深く理解する。
具体的には, 差分解析(ANOVA)を用いて, テスト誤差の分散を対称的に分解し, 特定の2層線形および非線形ネットワークの一般化性能について検討する。
分散分析の利点は、初期化、ラベルノイズ、トレーニングデータの影響を以前のアプローチよりも明確に示すことである。
さらに、分散成分の単調性と一様性についても検討する。
先行研究は、全体分散の一様性を研究する一方で、各項の分散分解における特性を研究する。
重要な洞察の1つは、典型的な環境では、トレーニングサンプルと初期化の間の相互作用が分散を支配する可能性があることである。
また,単調から単調に分散が変化する「相転移」を特徴付ける。
技術的なレベルでは、この領域ではまだ使われていないハール確率行列の高度な決定論的等価手法を活用している。
また,数値シミュレーションや実験データを用いて結果の検証を行った。
関連論文リスト
- In What Ways Are Deep Neural Networks Invariant and How Should We
Measure This? [5.757836174655293]
我々は、これらの特性を損失や精度などの他の指標から切り離す方法で定量化することができる、不変および等分散メトリクスのファミリーを導入する。
本研究では,事前学習した重み付きモデルの初期化がトレーニングモデルの不変性に影響を及ぼすか否かから,トレーニングによって学習した不変性が分布外データに一般化できる範囲まで,ディープラーニングモデルにおける不変性と等価性に関するさまざまな結論を導出する。
論文 参考訳(メタデータ) (2022-10-07T18:43:21Z) - Equivariance and Invariance Inductive Bias for Learning from
Insufficient Data [65.42329520528223]
不十分なデータがモデルを、通常テストとは異なる限られたトレーニング環境にバイアスしやすくする理由が示されています。
従来のIRMにおける環境アノテーションの欠如を効果的に解決するクラスワイド不変リスク最小化(IRM)を提案する。
論文 参考訳(メタデータ) (2022-07-25T15:26:19Z) - On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。
不変性はデータの変換におけるモデル予測の一貫性を測定する。
データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文 参考訳(メタデータ) (2022-07-14T17:08:25Z) - Equivariance Discovery by Learned Parameter-Sharing [153.41877129746223]
データから解釈可能な等価性を発見する方法について検討する。
具体的には、モデルのパラメータ共有方式に対する最適化問題として、この発見プロセスを定式化する。
また,ガウスデータの手法を理論的に解析し,研究された発見スキームとオラクルスキームの間の平均2乗ギャップを限定する。
論文 参考訳(メタデータ) (2022-04-07T17:59:19Z) - Regularising for invariance to data augmentation improves supervised
learning [82.85692486314949]
入力毎に複数の拡張を使用すれば、一般化が向上することを示す。
本稿では,個々のモデル予測のレベルにおいて,この不変性を助長する明示的な正規化手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T11:25:45Z) - Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。
そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文 参考訳(メタデータ) (2021-06-03T09:34:17Z) - Understanding Generalization in Adversarial Training via the
Bias-Variance Decomposition [39.108491135488286]
テストのリスクをバイアスと分散コンポーネントに分解します。
バイアスは摂動の大きさとともに単調に増加し、リスクの主要な用語であることがわかった。
一般化ギャップに対する一般的な説明は、代わりに分散が単調であることを予測している。
論文 参考訳(メタデータ) (2021-03-17T23:30:00Z) - Memorizing without overfitting: Bias, variance, and interpolation in
over-parameterized models [0.0]
バイアス分散トレードオフは教師あり学習における中心的な概念である。
現代のDeep Learningメソッドは、最先端のパフォーマンスを達成するために、このドグマを浮かび上がらせる。
論文 参考訳(メタデータ) (2020-10-26T22:31:04Z) - Learning Invariances in Neural Networks [51.20867785006147]
ネットワークパラメータや拡張パラメータに関して,拡張性よりも分布をパラメータ化し,トレーニング損失を同時に最適化する方法を示す。
画像分類,回帰,セグメンテーション,分子特性予測における不均一性の正確なセットと範囲を,拡張の広い空間から復元することができる。
論文 参考訳(メタデータ) (2020-10-22T17:18:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。