論文の概要: Don't Waste Your Time: Early Stopping Cross-Validation
- arxiv url: http://arxiv.org/abs/2405.03389v2
- Date: Fri, 2 Aug 2024 14:33:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 18:03:40.598319
- Title: Don't Waste Your Time: Early Stopping Cross-Validation
- Title(参考訳): 時間を無駄にしない - クロスバリデーションの早期停止
- Authors: Edward Bergman, Lennart Purucker, Frank Hutter,
- Abstract要約: クロスバリデーションは、単一の構成を検証する際の計算コストを大幅に向上させる。
本研究は, 単純な理解や実装が容易な方法であっても, モデル選択がより高速に収束できることを示す。
- 参考スコア(独自算出の注目度): 41.092016771160566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art automated machine learning systems for tabular data often employ cross-validation; ensuring that measured performances generalize to unseen data, or that subsequent ensembling does not overfit. However, using k-fold cross-validation instead of holdout validation drastically increases the computational cost of validating a single configuration. While ensuring better generalization and, by extension, better performance, the additional cost is often prohibitive for effective model selection within a time budget. We aim to make model selection with cross-validation more effective. Therefore, we study early stopping the process of cross-validation during model selection. We investigate the impact of early stopping on random search for two algorithms, MLP and random forest, across 36 classification datasets. We further analyze the impact of the number of folds by considering 3-, 5-, and 10-folds. In addition, we investigate the impact of early stopping with Bayesian optimization instead of random search and also repeated cross-validation. Our exploratory study shows that even a simple-to-understand and easy-to-implement method consistently allows model selection to converge faster; in ~94% of all datasets, on average by ~214%. Moreover, stopping cross-validation enables model selection to explore the search space more exhaustively by considering +167% configurations on average within one hour, while also obtaining better overall performance.
- Abstract(参考訳): グラフデータのための最先端の自動機械学習システムは、しばしばクロスバリデーションを使用し、測定されたパフォーマンスが目に見えないデータに一般化すること、あるいはその後のアンサンブルが過度に適合しないことを保証する。
しかし、ホールドアウトバリデーションの代わりにk倍のクロスバリデーションを使用すると、単一の構成を検証する計算コストが大幅に増大する。
より良い一般化と、拡張によって、より良いパフォーマンスを保証する一方で、追加のコストは、しばしば時間予算内で効果的なモデル選択を禁止します。
クロスバリデーションによるモデル選択をより効果的にすることを目指している。
そこで本研究では,モデル選択時のクロスバリデーションプロセスの早期停止について検討する。
我々は,36の分類データセットにおいて,早期停止が2つのアルゴリズム(MLPとランダムフォレスト)のランダム探索に与える影響について検討した。
さらに, 3, 5-, 10-folds を考慮し, 折りたたみ数の影響を解析した。
さらに,ランダム探索の代わりにベイズ最適化による早期停止の効果と,繰り返しのクロスバリデーションについて検討した。
我々の探索的研究は、単純な理解と実装の容易な方法でさえ、モデル選択が一貫して高速に収束できることを示し、全てのデータセットの94%が平均214%の速度でモデル選択を行う。
さらに、クロスバリデーションの停止により、1時間以内に平均で+167%の構成を考慮し、モデル選択により検索空間をより徹底的に探索できると同時に、全体的なパフォーマンスも向上する。
関連論文リスト
- From Theory to Practice: Implementing and Evaluating e-Fold Cross-Validation [0.10241134756773229]
e-fold cross-validationはk-fold cross-validationのエネルギー効率の良い代替品である。
10倍のクロスバリデーションよりも4倍の折りたたみが必要であり、評価時間、計算資源、エネルギー使用量を約40%削減する。
E-foldクロスバリデーションは、k-foldの信頼性と効率的な代替手段を提供し、計算コストを低減し、同等の精度を維持している。
論文 参考訳(メタデータ) (2024-10-12T09:56:28Z) - Improving Bias Correction Standards by Quantifying its Effects on Treatment Outcomes [54.18828236350544]
Propensity score matching (PSM) は、分析のために同等の人口を選択することで選択バイアスに対処する。
異なるマッチング手法は、すべての検証基準を満たす場合でも、同じタスクに対する平均処理効果(ATE)を著しく異なるものにすることができる。
この問題に対処するため,新しい指標A2Aを導入し,有効試合数を削減した。
論文 参考訳(メタデータ) (2024-07-20T12:42:24Z) - PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - LARA: A Light and Anti-overfitting Retraining Approach for Unsupervised
Time Series Anomaly Detection [49.52429991848581]
深部変分自動エンコーダに基づく時系列異常検出手法(VAE)のための光・反オーバーフィット学習手法(LARA)を提案する。
本研究の目的は,1) 再学習過程を凸問題として定式化し, 過度に収束できること,2) 履歴データを保存せずに活用するルミネートブロックを設計すること,3) 潜在ベクトルと再構成データの微調整を行うと, 線形形成が基底真実と微調整されたブロックとの誤りを最小に調整できることを数学的に証明することである。
論文 参考訳(メタデータ) (2023-10-09T12:36:16Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Bootstrapping the Cross-Validation Estimate [3.5159221757909656]
クロスバリデーションは予測モデルの性能を評価するために広く用いられている手法である。
見積もりに関連する不確実性を正確に定量化することが不可欠である。
本稿では,クロスバリデーション推定の標準誤差を迅速に推定する高速ブートストラップ法を提案する。
論文 参考訳(メタデータ) (2023-07-01T07:50:54Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Fast and Informative Model Selection using Learning Curve
Cross-Validation [2.28438857884398]
クロスバリデーションメソッドは、大規模なデータセットでは不要に遅くなる可能性がある。
学習曲線(LCCV)に基づく新しい検証手法を提案する。
LCCVは反復的にトレーニングに使用されるインスタンスの数を増やします。
論文 参考訳(メタデータ) (2021-11-27T14:48:52Z) - Overfitting in Bayesian Optimization: an empirical study and
early-stopping solution [41.782410830989136]
早期停止BOへの最初の問題適応性と解釈可能な基準を提案する。
提案手法は, テスト精度をほとんど損なうことなく, 計算時間を実質的に削減できることを示す。
論文 参考訳(メタデータ) (2021-04-16T15:26:23Z) - Fast calculation of Gaussian Process multiple-fold cross-validation
residuals and their covariances [0.6091702876917281]
高速離脱式を複数倍のクロスバリデーションに一般化する。
単純クリグフレームワークと普遍クリグフレームワークの両方において,クロスバリデーション残差の共分散構造を強調した。
本研究の結果は, 高速な多次元クロスバリデーションを可能にし, モデル診断において直接的な結果をもたらす。
論文 参考訳(メタデータ) (2021-01-08T17:02:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。