論文の概要: On the consistency of supervised learning with missing values
- arxiv url: http://arxiv.org/abs/1902.06931v5
- Date: Thu, 21 Mar 2024 09:01:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 00:17:07.141076
- Title: On the consistency of supervised learning with missing values
- Title(参考訳): 教師付き学習と欠落値の整合性について
- Authors: Julie Josse, Jacob M. Chen, Nicolas Prost, Erwan Scornet, Gaël Varoquaux,
- Abstract要約: 多くのアプリケーション設定において、データは分析を難しくするエントリを欠いている。
ここでは、教師あり学習の設定について考察する。トレーニングデータとテストデータの両方に、欠落した値が現れるときにターゲットを予測する。
本研究では,学習前の平均値など,一定値が得られない場合に一定であることを示す。
- 参考スコア(独自算出の注目度): 15.666860186278782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many application settings, the data have missing entries which make analysis challenging. An abundant literature addresses missing values in an inferential framework: estimating parameters and their variance from incomplete tables. Here, we consider supervised-learning settings: predicting a target when missing values appear in both training and testing data. We show the consistency of two approaches in prediction. A striking result is that the widely-used method of imputing with a constant, such as the mean prior to learning is consistent when missing values are not informative. This contrasts with inferential settings where mean imputation is pointed at for distorting the distribution of the data. That such a simple approach can be consistent is important in practice. We also show that a predictor suited for complete observations can predict optimally on incomplete data, through multiple imputation. Finally, to compare imputation with learning directly with a model that accounts for missing values, we analyze further decision trees. These can naturally tackle empirical risk minimization with missing values, due to their ability to handle the half-discrete nature of incomplete variables. After comparing theoretically and empirically different missing values strategies in trees, we recommend using the "missing incorporated in attribute" method as it can handle both non-informative and informative missing values.
- Abstract(参考訳): 多くのアプリケーション設定において、データは分析を難しくするエントリを欠いている。
豊富な文献は、不完全なテーブルからパラメータとそれらの分散を推定する、推論フレームワークの欠落値に対処する。
ここでは、教師あり学習の設定について考察する。トレーニングデータとテストデータの両方に、欠落した値が現れるときにターゲットを予測する。
予測における2つのアプローチの整合性を示す。
顕著な結果は、学習前の平均値が欠落した値が情報的でない場合に一貫性が保たれるような、一定値で命令する広く使われている方法である。
これは、データの分布を歪めるために平均的な計算を向ける推論設定とは対照的である。
このような単純なアプローチが一貫性を持つことは、実際は重要です。
また、完全観測に適した予測器は、多重計算により不完全データに基づいて最適に予測できることを示す。
最後に,不純物と学習を直接学習するモデルを比較するため,さらなる決定木を解析する。
これらは自然に、不完全変数の半離散性を扱う能力のため、不足した値で経験的リスク最小化に取り組むことができる。
木において、理論的および経験的に異なる欠落値戦略を比較した後、非表現的および情報的欠落値の両方を扱えるように、"missing incorporated in attribute" 法を使うことを推奨する。
関連論文リスト
- Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Benchmarking missing-values approaches for predictive models on health
databases [47.187609203210705]
我々は、大規模健康データベースに焦点を当てた予測モデルにおいて、不足値戦略のベンチマークを行う。
教師あり機械学習における欠落値に対するネイティブサポートは、計算コストをはるかに少なくして最先端の計算計算よりも優れていると予測できる。
論文 参考訳(メタデータ) (2022-02-17T09:40:04Z) - Minimax rate of consistency for linear models with missing values [0.0]
多くの実世界のデータセットでは、複数のソースが集約され、本質的に欠落した情報(センサーの故障、調査における未回答の疑問...)が欠落する。
本稿では,広範に研究された線形モデルに焦点をあてるが,不足する値が存在する場合には,非常に難しい課題であることが判明した。
最終的には、多くの学習タスクを解決し、入力機能の数を指数関数的にすることで、現在の現実世界のデータセットでは予測が不可能になる。
論文 参考訳(メタデータ) (2022-02-03T08:45:34Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Fairness without Imputation: A Decision Tree Approach for Fair
Prediction with Missing Values [4.973456986972679]
欠落した値を持つデータを用いて機械学習モデルを訓練する際の公平性の懸念について検討する。
本稿では,個別の計算処理や学習プロセスを必要としない決定木に基づく統合的アプローチを提案する。
提案手法は,有意なデータセットに適用した既存のフェアネス介入手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-09-21T20:46:22Z) - Greedy structure learning from data that contains systematic missing
values [13.088541054366527]
欠落した値を含むデータから学ぶことは、多くの領域でよくある現象である。
比較的少数のベイジアンネットワーク構造学習アルゴリズムが欠落データの原因となっている。
本稿では,2対の削除と逆確率重み付けを利用したグリージー検索構造学習の3つの変種について述べる。
論文 参考訳(メタデータ) (2021-07-09T02:56:44Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - What's a good imputation to predict with missing values? [0.0]
ほぼすべての計算関数に対して、強力な学習者を持つ暗黙の回帰手順がベイズ最適であることを示す。
本稿では、観測変数と観測変数の条件付きリンクをキャプチャするニューラルネットワークであるNeuMissを適用する手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T08:40:30Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。