論文の概要: Benchmarking missing-values approaches for predictive models on health
databases
- arxiv url: http://arxiv.org/abs/2202.10580v1
- Date: Thu, 17 Feb 2022 09:40:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-27 17:00:24.801696
- Title: Benchmarking missing-values approaches for predictive models on health
databases
- Title(参考訳): 健康データベースにおける予測モデルに対する不足値のベンチマーク手法
- Authors: Alexandre Perez-Lebel (MNI, MILA, PARIETAL), Ga\"el Varoquaux (MNI,
MILA, PARIETAL), Marine Le Morvan (PARIETAL), Julie Josse (CRISAM, IDESP),
Jean-Baptiste Poline (MNI)
- Abstract要約: 我々は、大規模健康データベースに焦点を当てた予測モデルにおいて、不足値戦略のベンチマークを行う。
教師あり機械学習における欠落値に対するネイティブサポートは、計算コストをはるかに少なくして最先端の計算計算よりも優れていると予測できる。
- 参考スコア(独自算出の注目度): 47.187609203210705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: BACKGROUND: As databases grow larger, it becomes harder to fully control
their collection, and they frequently come with missing values: incomplete
observations. These large databases are well suited to train machine-learning
models, for instance for forecasting or to extract biomarkers in biomedical
settings. Such predictive approaches can use discriminative -- rather than
generative -- modeling, and thus open the door to new missing-values
strategies. Yet existing empirical evaluations of strategies to handle missing
values have focused on inferential statistics. RESULTS: Here we conduct a
systematic benchmark of missing-values strategies in predictive models with a
focus on large health databases: four electronic health record datasets, a
population brain imaging one, a health survey and two intensive care ones.
Using gradient-boosted trees, we compare native support for missing values with
simple and state-of-the-art imputation prior to learning. We investigate
prediction accuracy and computational time. For prediction after imputation, we
find that adding an indicator to express which values have been imputed is
important, suggesting that the data are missing not at random. Elaborate
missing values imputation can improve prediction compared to simple strategies
but requires longer computational time on large data. Learning trees that model
missing values-with missing incorporated attribute-leads to robust, fast, and
well-performing predictive modeling. CONCLUSIONS: Native support for missing
values in supervised machine learning predicts better than state-of-the-art
imputation with much less computational cost. When using imputation, it is
important to add indicator columns expressing which values have been imputed.
- Abstract(参考訳): 背景: データベースが大きくなるにつれて、コレクションを完全にコントロールすることが難しくなり、しばしば欠落した値(不完全な観察)を伴います。
これらの大きなデータベースは、例えば予測やバイオマーカーの抽出など、機械学習モデルをトレーニングするのに適しています。
このような予測的アプローチは、生成的ではなく差別的モデリングを使用することで、新たな欠落値戦略への扉を開くことができる。
しかし、不足値を扱う戦略に関する既存の実証的な評価は、推論統計に焦点を当てている。
本稿では,4つの電子健康記録データセット,1つの人口脳イメージングデータセット,1つの健康調査,および2つの集中治療データセットを対象とする,予測モデルにおける不足値戦略の体系的ベンチマークを行う。
グラデーションブースト木を用いて,学習前に不足値に対するネイティブサポートと,単純かつ最先端のインプテーションを比較した。
予測精度と計算時間について検討する。
インプテーション後の予測では、どの値をインプットしたかを表す指標を追加することが重要であり、データが無作為ではないことを示唆する。
不足値の計算は単純な戦略に比べて予測を改善できるが、大規模データではより長い計算時間を必要とする。
価値の欠落をモデル化する学習ツリー - 頑丈で、高速で、優れた予測モデリングに、組み込まれた属性リードが欠落している。
結論: 教師付き機械学習における欠落値のネイティブサポートは、計算コストをはるかに少なくして、最先端の命令よりも優れた予測を行う。
インプテーションを使用する場合には、どの値がインプテーションされたかを表すインジケータ列を追加することが重要である。
関連論文リスト
- Imputation for prediction: beware of diminishing returns [12.424671213282256]
失敗の値はさまざまな分野に分散しており、予測モデルをトレーニングしデプロイする上での課題を提起している。
最近の理論的および実証的な研究は、単純な定数計算が一貫性と競争力を持つことを示唆している。
本研究の目的は, 先進的な計算手法への投資が, 予測精度を著しく向上させるかどうかを明らかにすることである。
論文 参考訳(メタデータ) (2024-07-29T09:01:06Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - PROMISSING: Pruning Missing Values in Neural Networks [0.0]
本稿では,ニューラルネットワークの学習と推論の段階において,欠落値(PROMISSing)を抽出する,シンプルで直感的かつ効果的な手法を提案する。
実験の結果, ProMISSing は様々な計算手法と比較して予測性能が良くなることがわかった。
論文 参考訳(メタデータ) (2022-06-03T15:37:27Z) - Minimax rate of consistency for linear models with missing values [0.0]
多くの実世界のデータセットでは、複数のソースが集約され、本質的に欠落した情報(センサーの故障、調査における未回答の疑問...)が欠落する。
本稿では,広範に研究された線形モデルに焦点をあてるが,不足する値が存在する場合には,非常に難しい課題であることが判明した。
最終的には、多くの学習タスクを解決し、入力機能の数を指数関数的にすることで、現在の現実世界のデータセットでは予測が不可能になる。
論文 参考訳(メタデータ) (2022-02-03T08:45:34Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Flexible Model Aggregation for Quantile Regression [92.63075261170302]
量子回帰は、予測の不確実性を定量化する必要性によって動機付けられた統計学習の基本的な問題である。
条件付き量子モデルの任意の数を集約する手法について検討する。
この論文で検討するモデルはすべて、現代のディープラーニングツールキットに適合します。
論文 参考訳(メタデータ) (2021-02-26T23:21:16Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z) - On the consistency of supervised learning with missing values [15.666860186278782]
多くのアプリケーション設定において、データは分析を難しくするエントリを欠いている。
ここでは、教師あり学習の設定について考察する。トレーニングデータとテストデータの両方に、欠落した値が現れるときにターゲットを予測する。
本研究では,学習前の平均値など,一定値が得られない場合に一定であることを示す。
論文 参考訳(メタデータ) (2019-02-19T07:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。