論文の概要: Multilevel Stochastic Optimization for Imputation in Massive Medical Data Records
- arxiv url: http://arxiv.org/abs/2110.09680v3
- Date: Wed, 3 Apr 2024 14:09:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 21:01:43.248249
- Title: Multilevel Stochastic Optimization for Imputation in Massive Medical Data Records
- Title(参考訳): 大量医療記録におけるマルチレベル確率最適化
- Authors: Wenrui Li, Xiaoyu Wang, Yuetian Sun, Snezana Milanovic, Mark Kon, Julio Enrique Castrillon-Candas,
- Abstract要約: 我々は最近開発された多段階計算最適化手法を医療記録の計算問題に適用した。
その結果, マルチレベル手法は現在の手法よりも大幅に優れ, 数値的に堅牢であることがわかった。
- 参考スコア(独自算出の注目度): 6.711824170437793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It has long been a recognized problem that many datasets contain significant levels of missing numerical data. A potentially critical predicate for application of machine learning methods to datasets involves addressing this problem. However, this is a challenging task. In this paper, we apply a recently developed multi-level stochastic optimization approach to the problem of imputation in massive medical records. The approach is based on computational applied mathematics techniques and is highly accurate. In particular, for the Best Linear Unbiased Predictor (BLUP) this multi-level formulation is exact, and is significantly faster and more numerically stable. This permits practical application of Kriging methods to data imputation problems for massive datasets. We test this approach on data from the National Inpatient Sample (NIS) data records, Healthcare Cost and Utilization Project (HCUP), Agency for Healthcare Research and Quality. Numerical results show that the multi-level method significantly outperforms current approaches and is numerically robust. It has superior accuracy as compared with methods recommended in the recent report from HCUP. Benchmark tests show up to 75% reductions in error. Furthermore, the results are also superior to recent state of the art methods such as discriminative deep learning.
- Abstract(参考訳): 多くのデータセットが欠落する数値データをかなり含んでいることは、長い間認識されてきた問題である。
機械学習メソッドをデータセットに適用するための潜在的に重要な述語は、この問題に対処することである。
しかし、これは難しい課題です。
本稿では,近年開発されたマルチレベル確率最適化手法を,大規模医療記録におけるインキュベーション問題に適用する。
この手法は計算応用数学の技術に基づいており、高精度である。
特に、Best Linear Unbiased Predictor (BLUP)では、このマルチレベル定式化は正確であり、より高速でより数値的に安定である。
これにより、大規模なデータセットに対するデータ計算問題にKriging法を実践的に適用することができる。
本手法は,NIS (National In patient Sample) データ記録, HCUP (Healthcare Cost and utilization Project), Agency for Healthcare Research and Qualityから得られたデータに基づいて検証する。
数値計算の結果, マルチレベル法は現在の手法よりも有意に優れ, 数値的に堅牢であることがわかった。
HCUPの最近のレポートで推奨されている手法に比べて精度が優れている。
ベンチマークテストでは、最大75%エラーが減少する。
さらに、この結果は差別的深層学習のような最近の最先端の手法よりも優れている。
関連論文リスト
- Gradient Boosting Decision Trees on Medical Diagnosis over Tabular Data [0.0]
アンサンブル法は、医学的意思決定プロセスの成功の観点から、強力な代替手段を提供する。
本研究では,医学分類作業におけるアンサンブル手法,特にGBDTアルゴリズムの利点について検討した。
論文 参考訳(メタデータ) (2024-09-25T17:13:05Z) - Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - In-Database Data Imputation [0.6157028677798809]
データの欠落は多くの領域で広く問題となり、データ分析と意思決定の課題を生み出します。
不完全なレコードを除外したり、単純な見積もりを示唆するといった、欠落したデータを扱う従来の手法は、計算的に効率的であるが、バイアスを導入し、変数の関係を乱す可能性がある。
モデルベースの計算手法は、データの変動性と関係を保存し、より堅牢なソリューションを提供するが、彼らは計算時間をはるかに多く要求する。
この作業は、広く使われているMICE方式を用いて、データベースシステム内の効率的で高品質でスケーラブルなデータ計算を可能にする。
論文 参考訳(メタデータ) (2024-01-07T01:57:41Z) - Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation for Time Series [45.76310830281876]
量子回帰に基づくタスクネットワークのアンサンブルを用いて不確実性を推定する新しい手法であるQuantile Sub-Ensemblesを提案する。
提案手法は,高い損失率に頑健な高精度な計算法を生成するだけでなく,非生成モデルの高速な学習により,計算効率も向上する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - Time-dependent Iterative Imputation for Multivariate Longitudinal
Clinical Data [0.0]
Time-Dependent Iterative Imputationは時系列データを計算するための実用的なソリューションを提供する。
500,000人以上の患者を観察するコホートに応用した場合,本手法は最先端の計算法より優れていた。
論文 参考訳(メタデータ) (2023-04-16T16:10:49Z) - DPER: Efficient Parameter Estimation for Randomly Missing Data [0.24466725954625884]
本稿では,1クラス・複数クラスのランダムに欠落したデータセットに対して,最大推定値(MLE)を求めるアルゴリズムを提案する。
我々のアルゴリズムは、データを通して複数のイテレーションを必要としないので、他の方法よりも時間のかかることを約束します。
論文 参考訳(メタデータ) (2021-06-06T16:37:48Z) - Active learning for medical code assignment [55.99831806138029]
臨床領域における多ラベルテキスト分類におけるアクティブラーニング(AL)の有効性を示す。
MIMIC-IIIデータセットにICD-9コードを自動的に割り当てるために、よく知られたALメソッドのセットを適用します。
その結果、有益なインスタンスの選択は、大幅に減少したトレーニングセットで満足のいく分類を提供する。
論文 参考訳(メタデータ) (2021-04-12T18:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。