論文の概要: Imputation for prediction: beware of diminishing returns
- arxiv url: http://arxiv.org/abs/2407.19804v1
- Date: Mon, 29 Jul 2024 09:01:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 14:35:40.316184
- Title: Imputation for prediction: beware of diminishing returns
- Title(参考訳): 予測の計算:リターンの低下に留意する
- Authors: Marine Le Morvan, Gaël Varoquaux,
- Abstract要約: 失敗の値はさまざまな分野に分散しており、予測モデルをトレーニングしデプロイする上での課題を提起している。
最近の理論的および実証的な研究は、単純な定数計算が一貫性と競争力を持つことを示唆している。
本研究の目的は, 先進的な計算手法への投資が, 予測精度を著しく向上させるかどうかを明らかにすることである。
- 参考スコア(独自算出の注目度): 12.424671213282256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Missing values are prevalent across various fields, posing challenges for training and deploying predictive models. In this context, imputation is a common practice, driven by the hope that accurate imputations will enhance predictions. However, recent theoretical and empirical studies indicate that simple constant imputation can be consistent and competitive. This empirical study aims at clarifying if and when investing in advanced imputation methods yields significantly better predictions. Relating imputation and predictive accuracies across combinations of imputation and predictive models on 20 datasets, we show that imputation accuracy matters less i) when using expressive models, ii) when incorporating missingness indicators as complementary inputs, iii) matters much more for generated linear outcomes than for real-data outcomes. Interestingly, we also show that the use of the missingness indicator is beneficial to the prediction performance, even in MCAR scenarios. Overall, on real-data with powerful models, improving imputation only has a minor effect on prediction performance. Thus, investing in better imputations for improved predictions often offers limited benefits.
- Abstract(参考訳): 失敗の値はさまざまな分野に分散しており、予測モデルをトレーニングしデプロイする上での課題を提起している。
この文脈では、正確な計算が予測を強化することを期待して、計算は一般的な慣習である。
しかし、最近の理論的および実証的な研究は、単純な定数計算は一貫性があり、競争力があることを示している。
この実証研究は、先進的な計算手法への投資が、より優れた予測をもたらすかどうかを明確化することを目的としている。
20データセット上でのインキュベーションモデルと予測モデルの組み合わせによるインキュベーションと予測精度の関係から,インキュベーション精度が重要であることを示す。
一 表現力のある模型を使用するとき。
二 相補的な入力として欠落指標を取り入れたとき。
三 実データ結果よりも、生成した線形結果の方がはるかに重要であること。
また, MCARシナリオにおいても, 異常指標の使用は予測性能に有益であることを示す。
全体として、強力なモデルを持つ実データでは、計算精度の向上は予測性能に小さな影響しか与えない。
したがって、予測を改善するためのより良い計算方法への投資は、しばしば限られた利益をもたらす。
関連論文リスト
- Learning Sample Difficulty from Pre-trained Models for Reliable
Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。
我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文 参考訳(メタデータ) (2023-04-20T07:29:23Z) - Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。
合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-02-23T18:57:14Z) - Predicting from Predictions [18.393971232725015]
観測データから,結果に対する予測の因果的影響を同定する方法について検討した。
予測から予測する教師あり学習は,特徴,予測,結果の間の伝達可能な機能的関係を見出すことができることを示す。
論文 参考訳(メタデータ) (2022-08-15T16:57:02Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - Benchmarking missing-values approaches for predictive models on health
databases [47.187609203210705]
我々は、大規模健康データベースに焦点を当てた予測モデルにおいて、不足値戦略のベンチマークを行う。
教師あり機械学習における欠落値に対するネイティブサポートは、計算コストをはるかに少なくして最先端の計算計算よりも優れていると予測できる。
論文 参考訳(メタデータ) (2022-02-17T09:40:04Z) - On the Relation between Prediction and Imputation Accuracy under Missing
Covariates [0.0]
近年の研究では、計算のための現代の機械学習アルゴリズムの利用傾向が増している。
近年の研究では、計算のための現代の機械学習アルゴリズムの利用傾向が増している。
論文 参考訳(メタデータ) (2021-12-09T23:30:44Z) - Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。
我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。
そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文 参考訳(メタデータ) (2021-09-30T19:19:09Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Loss Estimators Improve Model Generalization [36.520569284970456]
予測モデルと並行して損失推定器を訓練し,対照訓練目標を用いて予測の不確実性を直接推定する。
モデル一般化における損失推定器の影響を,その分布データに対する忠実度と,トレーニング中に見つからない分布サンプルや新しいクラスの検出能力の両方の観点から示す。
論文 参考訳(メタデータ) (2021-03-05T16:35:10Z) - Learning Prediction Intervals for Model Performance [1.433758865948252]
モデル性能の予測間隔を計算する手法を提案する。
我々は,幅広いドリフト条件におけるアプローチを評価し,競合ベースラインよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2020-12-15T21:32:03Z) - Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。
我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。
このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文 参考訳(メタデータ) (2020-10-15T16:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。