論文の概要: When to Impute? Imputation before and during cross-validation
- arxiv url: http://arxiv.org/abs/2010.00718v1
- Date: Thu, 1 Oct 2020 23:04:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 07:53:23.561751
- Title: When to Impute? Imputation before and during cross-validation
- Title(参考訳): いつインプットする?
クロスバリデーション前後の計算
- Authors: Byron C. Jaeger, Nicholas J. Tierney, Noah R. Simon
- Abstract要約: クロスバリデーション (CV) は予測モデルの一般化誤差を推定する手法である。
パイプライン全体の外部テストセットへの適用を模倣するために、CVの複製毎に全ステップを実行することが推奨されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-validation (CV) is a technique used to estimate generalization error
for prediction models. For pipeline modeling algorithms (i.e. modeling
procedures with multiple steps), it has been recommended the entire sequence of
steps be carried out during each replicate of CV to mimic the application of
the entire pipeline to an external testing set. While theoretically sound,
following this recommendation can lead to high computational costs when a
pipeline modeling algorithm includes computationally expensive operations, e.g.
imputation of missing values. There is a general belief that unsupervised
variable selection (i.e. ignoring the outcome) can be applied before conducting
CV without incurring bias, but there is less consensus for unsupervised
imputation of missing values. We empirically assessed whether conducting
unsupervised imputation prior to CV would result in biased estimates of
generalization error or result in poorly selected tuning parameters and thus
degrade the external performance of downstream models. Results show that
despite optimistic bias, the reduced variance of imputation before CV compared
to imputation during each replicate of CV leads to a lower overall root mean
squared error for estimation of the true external R-squared and the performance
of models tuned using CV with imputation before versus during each replication
is minimally different. In conclusion, unsupervised imputation before CV
appears valid in certain settings and may be a helpful strategy that enables
analysts to use more flexible imputation techniques without incurring high
computational costs.
- Abstract(参考訳): クロスバリデーション(CV)は予測モデルの一般化誤差を推定する手法である。
パイプラインモデリングアルゴリズム(つまり、複数のステップのモデリング手順)では、パイプライン全体の外部テストセットへの適用を模倣するために、CVの複製毎にステップのシーケンス全体を実行することが推奨されている。
理論的には正しいが、この推奨に従うと、パイプラインモデリングアルゴリズムが計算に高価な演算、例えば欠落した値の計算を含む場合、高い計算コストが発生する。
無教師変数選択(すなわち結果を無視した)は、バイアスを伴わずにCVを実行する前に適用できるという一般的な信念があるが、無教師変数選択が欠落した値に対するコンセンサスが少ない。
本研究では,CV前における教師なし計算を行えば,一般化誤差の偏りが生じるか,選択されていないチューニングパラメータが低下し,下流モデルの外部性能が低下するか否かを実験的に評価した。
その結果、楽観的バイアスにもかかわらず、cv前のインプテーションのばらつきがcvの複製におけるインプテーションよりも小さくなると、真の外部r-二乗の推定における全体の根平均二乗誤差が低くなり、各複製の間、インプテーション前のインプテーションで調整されたモデルの性能は最小に異なることがわかった。
結論として、CV以前の教師なし計算は一定の設定で有効であり、高い計算コストを発生させることなくより柔軟な計算手法をアナリストが利用できるようにするための有用な戦略であると考えられる。
関連論文リスト
- Risk and cross validation in ridge regression with correlated samples [72.59731158970894]
我々は,データポイントが任意の相関関係を持つ場合,リッジ回帰のイン・オブ・サンプルリスクのトレーニング例を提供する。
さらに、テストポイントがトレーニングセットと非自明な相関を持ち、時系列予測で頻繁に発生するような場合まで分析を拡張します。
我々は多種多様な高次元データにまたがって理論を検証する。
論文 参考訳(メタデータ) (2024-08-08T17:27:29Z) - Iterative Approximate Cross-Validation [13.084578404699174]
クロスバリデーション(CV)は、予測モデルを評価し、選択するための最も一般的なツールの1つである。
本稿では,経験的リスク最小化(ERM)問題を反復的1次アルゴリズムを用いて解く際に,CVを効率的に近似する新しいパラダイムを提案する。
我々の新しい手法は、CV近似の既存の保証を拡張し、収束を含むアルゴリズムの全軌道に沿って保持する。
論文 参考訳(メタデータ) (2023-03-05T17:56:08Z) - Toward Theoretical Guidance for Two Common Questions in Practical
Cross-Validation based Hyperparameter Selection [72.76113104079678]
クロスバリデーションに基づくハイパーパラメータ選択における2つの一般的な質問に対する最初の理論的治療について述べる。
これらの一般化は、少なくとも、常に再トレーニングを行うか、再トレーニングを行わないかを常に実行可能であることを示す。
論文 参考訳(メタデータ) (2023-01-12T16:37:12Z) - Efficient and Differentiable Conformal Prediction with General Function
Classes [96.74055810115456]
本稿では,複数の学習可能なパラメータに対する共形予測の一般化を提案する。
本研究は, クラス内において, ほぼ有効な人口被覆率, ほぼ最適効率を実現していることを示す。
実験の結果,提案アルゴリズムは有効な予測セットを学習し,効率を著しく向上できることがわかった。
論文 参考訳(メタデータ) (2022-02-22T18:37:23Z) - Confidence intervals for the Cox model test error from cross-validation [91.3755431537592]
クロスバリデーション(CV)は、モデルの試験誤差を推定する統計学習において最も広く使われている手法の1つである。
CVからの推定値を用いたテストエラーの標準信頼区間は、名目レベル以下である可能性がある。
この問題の1つの方法は、ネストされたCVを使って予測誤差の平均2乗誤差を推定することである。
論文 参考訳(メタデータ) (2022-01-26T06:40:43Z) - Can we globally optimize cross-validation loss? Quasiconvexity in ridge
regression [38.18195443944592]
尾根回帰の場合, CV損失は準研究ではなく, 複数の局所的最適度を有する可能性がある。
より一般に、準平坦状態は最適なデータ応答の多くの特性とは無関係であることを示す。
論文 参考訳(メタデータ) (2021-07-19T23:22:24Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Approximate Cross-validated Mean Estimates for Bayesian Hierarchical Regression Models [6.824747267214373]
本稿では,ベイズ階層回帰モデルに対するクロスバリデーション予測手法を提案する。
理論的な結果を提供し、その効果を公開データやシミュレーションで実証する。
論文 参考訳(メタデータ) (2020-11-29T00:00:20Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z) - Approximate Cross-validation: Guarantees for Model Assessment and
Selection [18.77512692975483]
クロスバリデーション(CV)は、予測モデルの評価と選択のための一般的なアプローチである。
経験的リスク最小化の最近の研究は、トレーニングセット全体からウォームスタートした1つのニュートンで高価なリフィットを近似している。
論文 参考訳(メタデータ) (2020-03-02T00:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。