論文の概要: Multilevel Stochastic Optimization for Imputation in Massive Medical
Data Records
- arxiv url: http://arxiv.org/abs/2110.09680v1
- Date: Tue, 19 Oct 2021 01:14:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-21 01:02:47.039346
- Title: Multilevel Stochastic Optimization for Imputation in Massive Medical
Data Records
- Title(参考訳): 大量医療記録におけるマルチレベル確率最適化
- Authors: Xiaoyu Wang, Wenrui Li, Yuetian Sun, Snezana Milanovic, Mark Kon,
Julio Enrique Castrillon-Candas
- Abstract要約: 我々はクリギングの理論に基づく数学的に原理化された計算法を導入する。
我々は最近開発された多段階最適化アプローチを,医療記録のインキュベーション問題に適用した。
数値計算の結果, マルチレベル法は現在の手法よりも著しく優れ, 数値的に頑健であることがわかった。
- 参考スコア(独自算出の注目度): 13.846414617684196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploration and analysis of massive datasets has recently generated
increasing interest in the research and development communities. It has long
been a recognized problem that many datasets contain significant levels of
missing numerical data. We introduce a mathematically principled stochastic
optimization imputation method based on the theory of Kriging. This is shown to
be a powerful method for imputation. However, its computational effort and
potential numerical instabilities produce costly and/or unreliable predictions,
potentially limiting its use on large scale datasets. In this paper, we apply a
recently developed multi-level stochastic optimization approach to the problem
of imputation in massive medical records. The approach is based on
computational applied mathematics techniques and is highly accurate. In
particular, for the Best Linear Unbiased Predictor (BLUP) this multi-level
formulation is exact, and is also significantly faster and more numerically
stable. This permits practical application of Kriging methods to data
imputation problems for massive datasets. We test this approach on data from
the National Inpatient Sample (NIS) data records, Healthcare Cost and
Utilization Project (HCUP), Agency for Healthcare Research and Quality.
Numerical results show the multi-level method significantly outperforms current
approaches and is numerically robust. In particular, it has superior accuracy
as compared with methods recommended in the recent report from HCUP on the
important problem of missing data, which could lead to sub-optimal and poorly
based funding policy decisions. In comparative benchmark tests it is shown that
the multilevel stochastic method is significantly superior to recommended
methods in the report, including Predictive Mean Matching (PMM) and Predicted
Posterior Distribution (PPD), with up to 75% reductions in error.
- Abstract(参考訳): 大規模データセットの探索と分析は、最近研究と開発コミュニティへの関心が高まっている。
多くのデータセットが欠落した数値データを含むことは、長い間認識されてきた問題である。
Krigingの理論に基づく数学的に原理化された確率的最適化計算法を提案する。
これは、インプテーションの強力な方法であることが示されている。
しかし、その計算努力と潜在的な数値不安定性は、コストと信頼性の低い予測を生み出し、大規模なデータセットでの使用を制限する可能性がある。
本稿では,近年開発されたマルチレベル確率最適化手法を,大規模医療記録の計算問題に適用する。
このアプローチは計算応用数学技術に基づいており、非常に正確である。
特に、Best Linear Unbiased Predictor (BLUP) では、このマルチレベル定式化は正確であり、さらにはるかに高速でより数値的に安定である。
これにより、Kriging法を大規模データセットのデータ計算問題に適用することができる。
本手法は,NIS (National In patient Sample) データ記録, HCUP (Healthcare Cost and utilization Project), Agency for Healthcare Research and Qualityから得られたデータに基づいて検証する。
数値計算の結果, マルチレベル法は現在の手法よりも優れ, 数値的に堅牢であることがわかった。
特に、HCUPの最近のレポートで推奨されているデータ不足に関する重要な問題についての手法と比較して精度が優れており、これは準最適かつ低ベースな資金調達政策決定につながる可能性がある。
比較ベンチマークテストでは, 予測平均マッチング (PMM) や予測後分布 (PPD) など, 最大75%の誤差で, マルチレベル確率法が推奨手法よりもはるかに優れていることが示された。
関連論文リスト
- Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - In-Database Data Imputation [0.6157028677798809]
データの欠落は多くの領域で広く問題となり、データ分析と意思決定の課題を生み出します。
不完全なレコードを除外したり、単純な見積もりを示唆するといった、欠落したデータを扱う従来の手法は、計算的に効率的であるが、バイアスを導入し、変数の関係を乱す可能性がある。
モデルベースの計算手法は、データの変動性と関係を保存し、より堅牢なソリューションを提供するが、彼らは計算時間をはるかに多く要求する。
この作業は、広く使われているMICE方式を用いて、データベースシステム内の効率的で高品質でスケーラブルなデータ計算を可能にする。
論文 参考訳(メタデータ) (2024-01-07T01:57:41Z) - Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation
for Time Series [49.992908221544624]
時系列データは、しばしば多くの欠落した値を示し、これは時系列計算タスクである。
従来の深層学習法は時系列計算に有効であることが示されている。
本研究では,不確実性のある高精度な計算を行う非生成時系列計算法を提案する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - Stabilizing Subject Transfer in EEG Classification with Divergence
Estimation [17.924276728038304]
脳波分類タスクを記述するためのグラフィカルモデルをいくつか提案する。
理想的な訓練シナリオにおいて真であるべき統計的関係を同定する。
我々は、これらの関係を2段階で強制する正規化罰則を設計する。
論文 参考訳(メタデータ) (2023-10-12T23:06:52Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient
Kernels [60.35011738807833]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は、ベンチマークODEとPDE発見タスクのリストにおいて、KBASSの顕著な利点を示す。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Fast and Accurate Importance Weighting for Correcting Sample Bias [4.750521042508541]
本稿では,ニューラルネットワークを用いてインスタンス重みを予測し,大規模データセットにスケールする,新たな重み付けアルゴリズムを提案する。
提案手法は,他の重み付け手法と比較して,類似のサンプルバイアス補正性能を維持しつつ,大規模データセット上での計算時間を劇的に短縮することを示す。
論文 参考訳(メタデータ) (2022-09-09T10:01:46Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Distributed Learning of Finite Gaussian Mixtures [21.652015112462]
有限ガウス混合系の分散学習における分割・対数アプローチについて検討する。
新しい推定器は整合性を示し、いくつかの一般的な条件下ではルート-nの整合性を保持する。
シミュレーションおよび実世界のデータに基づく実験により、提案手法はグローバル推定器と同等の統計的性能を有することが示された。
論文 参考訳(メタデータ) (2020-10-20T16:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。