論文の概要: ELMV: an Ensemble-Learning Approach for Analyzing Electrical Health
Records with Significant Missing Values
- arxiv url: http://arxiv.org/abs/2006.14942v2
- Date: Tue, 3 Nov 2020 08:34:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 03:20:38.923653
- Title: ELMV: an Ensemble-Learning Approach for Analyzing Electrical Health
Records with Significant Missing Values
- Title(参考訳): elmv: 有意な不足値を持つ電気的健康記録分析のためのアンサンブル学習手法
- Authors: Lucas J. Liu, Hongwei Zhang, Jianzhong Di, Jin Chen
- Abstract要約: 本稿では,ELMV(Ensemble-Learning for Missing Value)フレームワークを提案する。
ELMVは、重要な特徴識別のための現実世界の医療データと、結果予測の欠落率の異なるシミュレーションデータのバッチで評価されている。
- 参考スコア(独自算出の注目度): 4.9810955364960385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world Electronic Health Record (EHR) data contains a large
proportion of missing values. Leaving substantial portion of missing
information unaddressed usually causes significant bias, which leads to invalid
conclusion to be drawn. On the other hand, training a machine learning model
with a much smaller nearly-complete subset can drastically impact the
reliability and accuracy of model inference. Data imputation algorithms that
attempt to replace missing data with meaningful values inevitably increase the
variability of effect estimates with increased missingness, making it
unreliable for hypothesis validation. We propose a novel Ensemble-Learning for
Missing Value (ELMV) framework, which introduces an effective approach to
construct multiple subsets of the original EHR data with a much lower missing
rate, as well as mobilizing a dedicated support set for the ensemble learning
in the purpose of reducing the bias caused by substantial missing values. ELMV
has been evaluated on a real-world healthcare data for critical feature
identification as well as a batch of simulation data with different missing
rates for outcome prediction. On both experiments, ELMV clearly outperforms
conventional missing value imputation methods and ensemble learning models.
- Abstract(参考訳): 現実の電子健康記録(EHR)データの多くは、多くの欠落した値を含んでいる。
不足している情報のかなりの部分を残すと、通常かなりのバイアスが発生し、無効な結論が導かれる。
一方、ほぼ完全なサブセットよりもはるかに少ない機械学習モデルのトレーニングは、モデル推論の信頼性と精度に大きな影響を与える可能性がある。
欠落したデータを有意義な値に置き換えようとするデータインプテーションアルゴリズムは、必然的に効果推定の変動性を増加させ、欠落を増加させ、仮説の検証には信頼できない。
本稿では,ELMV(Ensemble-Learning for Missing Value)フレームワークを提案する。このフレームワークは,従来のERHデータの複数のサブセットを,より低損失率で構築するための効果的なアプローチを導入するとともに,十分な不足値によるバイアスを軽減するために,アンサンブル学習専用のサポートセットを動員する。
ELMVは、重要な特徴識別のための現実世界の医療データと、結果予測の欠落率の異なるシミュレーションデータに基づいて評価されている。
両方の実験において、ELMVは従来の欠落値計算法やアンサンブル学習モデルよりも明らかに優れている。
関連論文リスト
- M$^3$-Impute: Mask-guided Representation Learning for Missing Value Imputation [12.174699459648842]
M$3$-Imputeは、不足情報や新しいマスキング手法との相関性を明示的に活用することを目的としている。
実験の結果,M$3$-Imputeは平均20点,第2bのMAEスコアが4点であった。
論文 参考訳(メタデータ) (2024-10-11T13:25:32Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Conditional expectation with regularization for missing data imputation [19.254291863337347]
欠落したデータは、医学、スポーツ、ファイナンスなど、さまざまな領域のデータセットで頻繁に発生する。
正規化による損失値の条件分布に基づくインプット(DIMV)という新しいアルゴリズムを提案する。
DIMVは、完全に観察された特徴からの情報をベースとして、エントリが不足している特徴の条件分布を決定することで機能する。
論文 参考訳(メタデータ) (2023-02-02T06:59:15Z) - CEDAR: Communication Efficient Distributed Analysis for Regressions [9.50726756006467]
患者レベルのデータを共有することなく、複数のEHRデータベース上での分散学習への関心が高まっている。
本稿では,局所的な最適推定値を集約する通信効率のよい新しい手法を提案する。
本稿では,統計的推測法と差分プライバシーに関する理論的検討を行い,シミュレーションおよび実データ解析におけるその性能評価を行う。
論文 参考訳(メタデータ) (2022-07-01T09:53:44Z) - RIFLE: Imputation and Robust Inference from Low Order Marginals [10.082738539201804]
我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。
我々のフレームワークであるRIFLEは、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。
実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-01T23:17:30Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z) - Uncertainty-Gated Stochastic Sequential Model for EHR Mortality
Prediction [6.170898159041278]
本稿では,欠落変数の分布を推定し,隠れ状態の更新を行い,院内死亡の可能性を予測できる新しい変動再帰ネットワークを提案する。
我々のモデルは、これらの手順を1つのストリームで実行し、エンドツーエンドで全てのネットワークパラメータを共同で学習できることは注目に値する。
論文 参考訳(メタデータ) (2020-03-02T04:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。