論文の概要: Multilevel Stochastic Optimization for Imputation in Massive Medical
Data Records
- arxiv url: http://arxiv.org/abs/2110.09680v2
- Date: Fri, 29 Sep 2023 21:47:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 21:37:41.722862
- Title: Multilevel Stochastic Optimization for Imputation in Massive Medical
Data Records
- Title(参考訳): 大量医療記録におけるマルチレベル確率最適化
- Authors: Wenrui Li, Xiaoyu Wang, Yuetian Sun, Snezana Milanovic, Mark Kon,
Julio Enrique Castrillon-Candas
- Abstract要約: 我々はクリギングの理論に基づく数学的に原理化された計算法を導入する。
我々は最近開発された多段階最適化アプローチを,医療記録のインキュベーション問題に適用した。
数値計算の結果, マルチレベル法は現在の手法よりも著しく優れ, 数値的に頑健であることがわかった。
- 参考スコア(独自算出の注目度): 7.048393430310444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploration and analysis of massive datasets has recently generated
increasing interest in the research and development communities. It has long
been a recognized problem that many datasets contain significant levels of
missing numerical data. We introduce a mathematically principled stochastic
optimization imputation method based on the theory of Kriging. This is shown to
be a powerful method for imputation. However, its computational effort and
potential numerical instabilities produce costly and/or unreliable predictions,
potentially limiting its use on large scale datasets. In this paper, we apply a
recently developed multi-level stochastic optimization approach to the problem
of imputation in massive medical records. The approach is based on
computational applied mathematics techniques and is highly accurate. In
particular, for the Best Linear Unbiased Predictor (BLUP) this multi-level
formulation is exact, and is also significantly faster and more numerically
stable. This permits practical application of Kriging methods to data
imputation problems for massive datasets. We test this approach on data from
the National Inpatient Sample (NIS) data records, Healthcare Cost and
Utilization Project (HCUP), Agency for Healthcare Research and Quality.
Numerical results show the multi-level method significantly outperforms current
approaches and is numerically robust. In particular, it has superior accuracy
as compared with methods recommended in the recent report from HCUP on the
important problem of missing data, which could lead to sub-optimal and poorly
based funding policy decisions. In comparative benchmark tests it is shown that
the multilevel stochastic method is significantly superior to recommended
methods in the report, including Predictive Mean Matching (PMM) and Predicted
Posterior Distribution (PPD), with up to 75% reductions in error.
- Abstract(参考訳): 大規模データセットの探索と分析は、最近研究と開発コミュニティへの関心が高まっている。
多くのデータセットが欠落した数値データを含むことは、長い間認識されてきた問題である。
Krigingの理論に基づく数学的に原理化された確率的最適化計算法を提案する。
これは、インプテーションの強力な方法であることが示されている。
しかし、その計算努力と潜在的な数値不安定性は、コストと信頼性の低い予測を生み出し、大規模なデータセットでの使用を制限する可能性がある。
本稿では,近年開発されたマルチレベル確率最適化手法を,大規模医療記録の計算問題に適用する。
このアプローチは計算応用数学技術に基づいており、非常に正確である。
特に、Best Linear Unbiased Predictor (BLUP) では、このマルチレベル定式化は正確であり、さらにはるかに高速でより数値的に安定である。
これにより、Kriging法を大規模データセットのデータ計算問題に適用することができる。
本手法は,NIS (National In patient Sample) データ記録, HCUP (Healthcare Cost and utilization Project), Agency for Healthcare Research and Qualityから得られたデータに基づいて検証する。
数値計算の結果, マルチレベル法は現在の手法よりも優れ, 数値的に堅牢であることがわかった。
特に、HCUPの最近のレポートで推奨されているデータ不足に関する重要な問題についての手法と比較して精度が優れており、これは準最適かつ低ベースな資金調達政策決定につながる可能性がある。
比較ベンチマークテストでは, 予測平均マッチング (PMM) や予測後分布 (PPD) など, 最大75%の誤差で, マルチレベル確率法が推奨手法よりもはるかに優れていることが示された。
関連論文リスト
- Gradient Boosting Decision Trees on Medical Diagnosis over Tabular Data [0.0]
アンサンブル法は、医学的意思決定プロセスの成功の観点から、強力な代替手段を提供する。
本研究では,医学分類作業におけるアンサンブル手法,特にGBDTアルゴリズムの利点について検討した。
論文 参考訳(メタデータ) (2024-09-25T17:13:05Z) - Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - In-Database Data Imputation [0.6157028677798809]
データの欠落は多くの領域で広く問題となり、データ分析と意思決定の課題を生み出します。
不完全なレコードを除外したり、単純な見積もりを示唆するといった、欠落したデータを扱う従来の手法は、計算的に効率的であるが、バイアスを導入し、変数の関係を乱す可能性がある。
モデルベースの計算手法は、データの変動性と関係を保存し、より堅牢なソリューションを提供するが、彼らは計算時間をはるかに多く要求する。
この作業は、広く使われているMICE方式を用いて、データベースシステム内の効率的で高品質でスケーラブルなデータ計算を可能にする。
論文 参考訳(メタデータ) (2024-01-07T01:57:41Z) - Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation for Time Series [45.76310830281876]
量子回帰に基づくタスクネットワークのアンサンブルを用いて不確実性を推定する新しい手法であるQuantile Sub-Ensemblesを提案する。
提案手法は,高い損失率に頑健な高精度な計算法を生成するだけでなく,非生成モデルの高速な学習により,計算効率も向上する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - Time-dependent Iterative Imputation for Multivariate Longitudinal
Clinical Data [0.0]
Time-Dependent Iterative Imputationは時系列データを計算するための実用的なソリューションを提供する。
500,000人以上の患者を観察するコホートに応用した場合,本手法は最先端の計算法より優れていた。
論文 参考訳(メタデータ) (2023-04-16T16:10:49Z) - DPER: Efficient Parameter Estimation for Randomly Missing Data [0.24466725954625884]
本稿では,1クラス・複数クラスのランダムに欠落したデータセットに対して,最大推定値(MLE)を求めるアルゴリズムを提案する。
我々のアルゴリズムは、データを通して複数のイテレーションを必要としないので、他の方法よりも時間のかかることを約束します。
論文 参考訳(メタデータ) (2021-06-06T16:37:48Z) - Active learning for medical code assignment [55.99831806138029]
臨床領域における多ラベルテキスト分類におけるアクティブラーニング(AL)の有効性を示す。
MIMIC-IIIデータセットにICD-9コードを自動的に割り当てるために、よく知られたALメソッドのセットを適用します。
その結果、有益なインスタンスの選択は、大幅に減少したトレーニングセットで満足のいく分類を提供する。
論文 参考訳(メタデータ) (2021-04-12T18:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。