論文の概要: On the consistency of supervised learning with missing values
- arxiv url: http://arxiv.org/abs/1902.06931v4
- Date: Thu, 7 Mar 2024 09:27:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-10 19:39:55.713121
- Title: On the consistency of supervised learning with missing values
- Title(参考訳): 教師付き学習と欠落値の整合性について
- Authors: Julie Josse (CMAP, XPOP), Jacob M. Chen, Nicolas Prost (CMAP, XPOP,
PARIETAL), Ga\"el Varoquaux (PARIETAL), Erwan Scornet (X, CMAP, SU)
- Abstract要約: 多くのアプリケーション設定において、データは分析を難しくするエントリを欠いている。
ここでは、教師あり学習の設定について考察する。トレーニングデータとテストデータの両方に、欠落した値が現れるときにターゲットを予測する。
予測における2つのアプローチの整合性を示す。顕著な結果として,学習前の平均値が欠落した値が情報的でない場合には,その平均値が一貫するなど,一定値で計算する方法が広く用いられている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many application settings, the data have missing entries which make
analysis challenging. An abundant literature addresses missing values in an
inferential framework: estimating parameters and their variance from incomplete
tables. Here, we consider supervised-learning settings: predicting a target
when missing values appear in both training and testing data. We show the
consistency of two approaches in prediction. A striking result is that the
widely-used method of imputing with a constant, such as the mean prior to
learning is consistent when missing values are not informative. This contrasts
with inferential settings where mean imputation is pointed at for distorting
the distribution of the data. That such a simple approach can be consistent is
important in practice. We also show that a predictor suited for complete
observations can predict optimally on incomplete data,through multiple
imputation.Finally, to compare imputation with learning directly with a model
that accounts for missing values, we analyze further decision trees. These can
naturally tackle empirical risk minimization with missing values, due to their
ability to handle the half-discrete nature of incomplete variables. After
comparing theoretically and empirically different missing values strategies in
trees, we recommend using the "missing incorporated in attribute" method as it
can handle both non-informative and informative missing values.
- Abstract(参考訳): 多くのアプリケーション設定において、データは分析を難しくするエントリを欠いている。
豊富な文献は、不完全なテーブルからパラメータとそれらの分散を推定する、推論フレームワークの欠落値に対処する。
ここでは教師あり学習の設定について考察する。訓練データとテストデータの両方に値が欠けている場合の目標を予測する。
予測における2つのアプローチの一貫性を示す。
印象的な結果は、学習前の平均のような定数を暗示する広く使われている方法は、欠落した値が有益でない場合に一貫性がある。
これは、データの分布を歪めるために平均計算を向ける推論設定とは対照的である。
このような単純なアプローチが一貫性を持つことは、実際は重要です。
また,完全観測に適した予測器は,複数のインプテーションを通じて不完全なデータに対して最適に予測できることを示した。
これらは、不完全変数の半々的な性質を扱う能力があるため、値の欠如による経験的リスク最小化に自然に取り組むことができる。
木における理論的および経験的に異なる欠落値戦略を比較した後、非表現的および情報的欠落値の両方を扱える「属性に組み込まれた欠落」手法を推奨する。
関連論文リスト
- Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Benchmarking missing-values approaches for predictive models on health
databases [47.187609203210705]
我々は、大規模健康データベースに焦点を当てた予測モデルにおいて、不足値戦略のベンチマークを行う。
教師あり機械学習における欠落値に対するネイティブサポートは、計算コストをはるかに少なくして最先端の計算計算よりも優れていると予測できる。
論文 参考訳(メタデータ) (2022-02-17T09:40:04Z) - Minimax rate of consistency for linear models with missing values [0.0]
多くの実世界のデータセットでは、複数のソースが集約され、本質的に欠落した情報(センサーの故障、調査における未回答の疑問...)が欠落する。
本稿では,広範に研究された線形モデルに焦点をあてるが,不足する値が存在する場合には,非常に難しい課題であることが判明した。
最終的には、多くの学習タスクを解決し、入力機能の数を指数関数的にすることで、現在の現実世界のデータセットでは予測が不可能になる。
論文 参考訳(メタデータ) (2022-02-03T08:45:34Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Fairness without Imputation: A Decision Tree Approach for Fair
Prediction with Missing Values [4.973456986972679]
欠落した値を持つデータを用いて機械学習モデルを訓練する際の公平性の懸念について検討する。
本稿では,個別の計算処理や学習プロセスを必要としない決定木に基づく統合的アプローチを提案する。
提案手法は,有意なデータセットに適用した既存のフェアネス介入手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-09-21T20:46:22Z) - Greedy structure learning from data that contains systematic missing
values [13.088541054366527]
欠落した値を含むデータから学ぶことは、多くの領域でよくある現象である。
比較的少数のベイジアンネットワーク構造学習アルゴリズムが欠落データの原因となっている。
本稿では,2対の削除と逆確率重み付けを利用したグリージー検索構造学習の3つの変種について述べる。
論文 参考訳(メタデータ) (2021-07-09T02:56:44Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - What's a good imputation to predict with missing values? [0.0]
ほぼすべての計算関数に対して、強力な学習者を持つ暗黙の回帰手順がベイズ最適であることを示す。
本稿では、観測変数と観測変数の条件付きリンクをキャプチャするニューラルネットワークであるNeuMissを適用する手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T08:40:30Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。