論文の概要: The Theory Behind Overfitting, Cross Validation, Regularization,
Bagging, and Boosting: Tutorial
- arxiv url: http://arxiv.org/abs/1905.12787v2
- Date: Sat, 20 May 2023 20:03:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 09:04:01.789464
- Title: The Theory Behind Overfitting, Cross Validation, Regularization,
Bagging, and Boosting: Tutorial
- Title(参考訳): オーバーフィッティング、クロスバリデーション、正規化、バッグ、ブースティングの背後にある理論:チュートリアル
- Authors: Benyamin Ghojogh, Mark Crowley
- Abstract要約: まず、確率変数と分類・予測モデルの両方の平均二乗誤差、分散、共分散、バイアスを定義する。
次に、トレーニングと検証/テストの両方のインスタンスに対して、モデルの真と一般化のエラーを定式化する。
正規化の例として、尾根およびラッソ回帰の理論、重量減衰、入射・重みへのノイズ注入、早期停止について説明する。
ブースティング、特にAdaBoostが導入され、加法モデルと最大マージンモデルの両方として説明される。
- 参考スコア(独自算出の注目度): 8.08673556910769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this tutorial paper, we first define mean squared error, variance,
covariance, and bias of both random variables and classification/predictor
models. Then, we formulate the true and generalization errors of the model for
both training and validation/test instances where we make use of the Stein's
Unbiased Risk Estimator (SURE). We define overfitting, underfitting, and
generalization using the obtained true and generalization errors. We introduce
cross validation and two well-known examples which are $K$-fold and
leave-one-out cross validations. We briefly introduce generalized cross
validation and then move on to regularization where we use the SURE again. We
work on both $\ell_2$ and $\ell_1$ norm regularizations. Then, we show that
bootstrap aggregating (bagging) reduces the variance of estimation. Boosting,
specifically AdaBoost, is introduced and it is explained as both an additive
model and a maximum margin model, i.e., Support Vector Machine (SVM). The upper
bound on the generalization error of boosting is also provided to show why
boosting prevents from overfitting. As examples of regularization, the theory
of ridge and lasso regressions, weight decay, noise injection to input/weights,
and early stopping are explained. Random forest, dropout, histogram of oriented
gradients, and single shot multi-box detector are explained as examples of
bagging in machine learning and computer vision. Finally, boosting tree and SVM
models are mentioned as examples of boosting.
- Abstract(参考訳): 本稿では,まず,確率変数と分類・予測モデルの両方の平均二乗誤差,分散,共分散,バイアスを定義する。
次に、モデルの真のおよび一般化エラーをトレーニングおよび検証/テストのインスタンスの両方で定式化し、そこでスタインの偏りのないリスク推定器(sure)を利用する。
得られた真偽および一般化誤差を用いて過度適合、不適合、一般化を定義する。
クロスバリデーションと、$K$-fold と leave-out-out のクロスバリデーションの2つのよく知られた例を紹介します。
一般化されたクロスバリデーションを簡潔に紹介し、次に正規化に移行し、再びSUREを使用します。
私たちは $\ell_2$ と $\ell_1$ のノルム正規化に取り組んでいます。
そして,ブートストラップ集約(バッグング)が推定のばらつきを減少させることを示す。
ブースティング、特にAdaBoostが導入され、加法モデルと最大マージンモデルの両方、すなわちサポートベクトルマシン(SVM)として説明される。
ブースティングの一般化誤差の上限は、ブースティングがオーバーフィッティングを防止する理由を示すためにも設けられている。
正規化の例として、尾根およびラッソ回帰の理論、重量減衰、入射・重みへのノイズ注入、早期停止について説明する。
ランダムフォレスト、ドロップアウト、方位勾配のヒストグラム、単発マルチボックス検出器は、機械学習とコンピュータビジョンにおけるバッグングの例として説明される。
最後に、boosting treeとsvmモデルがboostingの例として言及されている。
関連論文リスト
- Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - It's an Alignment, Not a Trade-off: Revisiting Bias and Variance in Deep
Models [51.66015254740692]
深層学習に基づく分類モデルのアンサンブルでは, バイアスと分散がサンプルレベルで一致していることが示される。
我々はこの現象をキャリブレーションと神経崩壊という2つの理論的観点から研究する。
論文 参考訳(メタデータ) (2023-10-13T17:06:34Z) - Revisiting Discriminative vs. Generative Classifiers: Theory and
Implications [37.98169487351508]
本論文はベイズの統計的効率に着想を得たものである。
マルチクラス$mathcalH$-consistency bound frameworkと明示的なロジスティック損失境界を示す。
様々な事前訓練されたディープビジョンモデルの実験は、データの数が増加するにつれて、ナイーブベイズは常に速く収束することを示している。
論文 参考訳(メタデータ) (2023-02-05T08:30:42Z) - WR-ONE2SET: Towards Well-Calibrated Keyphrase Generation [57.11538133231843]
キーワード生成は、入力文書を要約する短いフレーズを自動的に生成することを目的としている。
最近登場したONE2SETパラダイムは、キーフレーズをセットとして生成し、競争性能を達成した。
本稿では, ONE2SET を拡張した WR-ONE2SET を提案する。
論文 参考訳(メタデータ) (2022-11-13T09:56:24Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - Meaningfully Explaining a Model's Mistakes [16.521189362225996]
本稿では,概念的説明スコア (CES) の体系的アプローチを提案する。
CESでは、分類器が特定のテストサンプルに対して、人間の理解可能な概念で間違いを犯す理由を説明している。
また、意図的かつ既知の刺激的な相関関係を持つ新しいモデルをトレーニングしています。
論文 参考訳(メタデータ) (2021-06-24T01:49:55Z) - Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。
そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文 参考訳(メタデータ) (2021-06-03T09:34:17Z) - What causes the test error? Going beyond bias-variance via ANOVA [21.359033212191218]
現代の機械学習手法は、しばしば過度にパラメータ化され、細かいレベルでのデータへの適応を可能にする。
最近の研究は、なぜ過度なパラメータ化が一般化に役立つのかをより深く理解することを目的としている。
本研究では, 差分解析(ANOVA)を用いて, テスト誤差の分散を対称的に分解する手法を提案する。
論文 参考訳(メタデータ) (2020-10-11T05:21:13Z) - A Precise High-Dimensional Asymptotic Theory for Boosting and
Minimum-$\ell_1$-Norm Interpolated Classifiers [3.167685495996986]
本稿では,分離可能なデータの強化に関する高精度な高次元理論を確立する。
統計モデルのクラスでは、ブースティングの普遍性誤差を正確に解析する。
また, 推力試験誤差と最適ベイズ誤差の関係を明示的に説明する。
論文 参考訳(メタデータ) (2020-02-05T00:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。