論文の概要: Handling missing values in healthcare data: A systematic review of deep
learning-based imputation techniques
- arxiv url: http://arxiv.org/abs/2210.08258v1
- Date: Sat, 15 Oct 2022 11:11:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 20:12:02.262978
- Title: Handling missing values in healthcare data: A systematic review of deep
learning-based imputation techniques
- Title(参考訳): 医療データに欠けている値を扱う:深層学習に基づくインプテーション手法の体系的レビュー
- Authors: Mingxuan Liu, Siqi Li, Han Yuan, Marcus Eng Hock Ong, Yilin Ning, Feng
Xie, Seyed Ehsan Saffari, Victor Volovici, Bibhas Chakraborty, Nan Liu
- Abstract要約: 欠落した値の適切な処理は、信頼できる見積と決定を提供する上で非常に重要です。
データの多様性と複雑さの増大により、多くの研究者がディープラーニング(DL)ベースの計算技術を開発した。
- 参考スコア(独自算出の注目度): 9.400097064676991
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objective: The proper handling of missing values is critical to delivering
reliable estimates and decisions, especially in high-stakes fields such as
clinical research. The increasing diversity and complexity of data have led
many researchers to develop deep learning (DL)-based imputation techniques. We
conducted a systematic review to evaluate the use of these techniques, with a
particular focus on data types, aiming to assist healthcare researchers from
various disciplines in dealing with missing values.
Methods: We searched five databases (MEDLINE, Web of Science, Embase, CINAHL,
and Scopus) for articles published prior to August 2021 that applied DL-based
models to imputation. We assessed selected publications from four perspectives:
health data types, model backbone (i.e., main architecture), imputation
strategies, and comparison with non-DL-based methods. Based on data types, we
created an evidence map to illustrate the adoption of DL models.
Results: We included 64 articles, of which tabular static (26.6%, 17/64) and
temporal data (37.5%, 24/64) were the most frequently investigated. We found
that model backbone(s) differed among data types as well as the imputation
strategy. The "integrated" strategy, that is, the imputation task being solved
concurrently with downstream tasks, was popular for tabular temporal (50%,
12/24) and multi-modal data (71.4%, 5/7), but limited for other data types.
Moreover, DL-based imputation methods yielded better imputation accuracy in
most studies, compared with non-DL-based methods.
Conclusion: DL-based imputation models can be customized based on data type,
addressing the corresponding missing patterns, and its associated "integrated"
strategy can enhance the efficacy of imputation, especially in scenarios where
data is complex. Future research may focus on the portability and fairness of
DL-based models for healthcare data imputation.
- Abstract(参考訳): 目的: 欠落した値の適切な処理は、信頼性の高い見積もりと決定を、特に臨床研究のような高度な分野に届けるのに重要である。
データの多様性と複雑さの増大により、多くの研究者がディープラーニング(DL)ベースの計算技術を開発した。
我々は,これらの手法の活用を,特にデータ型に焦点をあてて,様々な分野の医療研究者を支援するために,体系的なレビューを行った。
方法:2021年8月までに発行された論文に対して,5つのデータベース(MEDLINE,Web of Science, Embase, CINAHL, Scopus)を検索した。
我々は,健康データ型,モデルバックボーン(メインアーキテクチャ),インプット戦略,非DL手法との比較の4つの観点から,選択した出版物を評価した。
データ型に基づいて、DLモデルの採用を示すエビデンスマップを作成しました。
結果: 調査対象は64項目で, 表状静的(26.6%, 17/64), 時間的データ(37.5%, 24/64)が最も多かった。
モデルのbackbone(s)は、インプテーション戦略と同様に、データ型によって異なることが分かりました。
統合された」戦略、すなわち、下流のタスクと同時に解決される計算タスクは、表側時間(50%、12/24)とマルチモーダルデータ(71.4%、5/7)で人気があったが、他のデータ型には限られていた。
さらに, DL法は, 非DL法に比べ, ほとんどの研究において高い計算精度を示した。
結論:dlベースのインプテーションモデルは、対応する欠落パターンに対処するデータ型に基づいてカスタマイズすることができ、その「統合」戦略は、特にデータが複雑であるシナリオにおいてインプテーションの有効性を高めることができる。
将来の研究は、医療データ計算のためのDLベースのモデルの移植性と公正性に焦点を当てるかもしれない。
関連論文リスト
- Lessons Learned on Information Retrieval in Electronic Health Records: A Comparison of Embedding Models and Pooling Strategies [8.822087602255504]
大きな言語モデルを臨床領域に適用することは、医療記録を処理するという文脈重大な性質のために困難である。
本稿では, 組込みモデルとプール法の違いが臨床領域の情報検索に与える影響について検討する。
論文 参考訳(メタデータ) (2024-09-23T16:16:08Z) - A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。
既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。
本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文 参考訳(メタデータ) (2024-05-15T11:58:08Z) - In-Database Data Imputation [0.6157028677798809]
データの欠落は多くの領域で広く問題となり、データ分析と意思決定の課題を生み出します。
不完全なレコードを除外したり、単純な見積もりを示唆するといった、欠落したデータを扱う従来の手法は、計算的に効率的であるが、バイアスを導入し、変数の関係を乱す可能性がある。
モデルベースの計算手法は、データの変動性と関係を保存し、より堅牢なソリューションを提供するが、彼らは計算時間をはるかに多く要求する。
この作業は、広く使われているMICE方式を用いて、データベースシステム内の効率的で高品質でスケーラブルなデータ計算を可能にする。
論文 参考訳(メタデータ) (2024-01-07T01:57:41Z) - Deep Imputation of Missing Values in Time Series Health Data: A Review
with Benchmarking [0.0]
この調査では,5つの時系列健康データセットに対して,最先端の深層計算手法をベンチマークするために,データ中心の6つの実験を行った。
時系列データにおける欠落した値の縦方向の計算と横方向の計算を共同で行う深層学習法は、従来の計算法よりも統計的に優れたデータ品質が得られる。
論文 参考訳(メタデータ) (2023-02-10T16:03:36Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Categorical EHR Imputation with Generative Adversarial Nets [11.171712535005357]
本稿では,データ計算のためのGANに関する従来の研究を基にした,シンプルで効果的な手法を提案する。
従来のデータ計算手法に比べて予測精度が大幅に向上していることを示す。
論文 参考訳(メタデータ) (2021-08-03T18:50:26Z) - CSDI: Conditional Score-based Diffusion Models for Probabilistic Time
Series Imputation [107.63407690972139]
Conditional Score-based Diffusion Model for Imputation (CSDI) は、観測データに条件付きスコアベース拡散モデルを利用する新しい時系列計算法である。
CSDIは、一般的なパフォーマンスメトリクスの既存の確率論的計算方法よりも40-70%改善されている。
さらに、Cは最先端の決定論的計算法と比較して誤差を5-20%削減する。
論文 参考訳(メタデータ) (2021-07-07T22:20:24Z) - Handling Non-ignorably Missing Features in Electronic Health Records
Data Using Importance-Weighted Autoencoders [8.518166245293703]
本稿では,生体データのランダムなパターンではなく,欠落を柔軟に扱うために,重要度重み付きオートエンコーダ(iwaes)と呼ばれるvaesの新たな拡張を提案する。
提案手法は,組み込みニューラルネットワークを用いて欠落機構をモデル化し,欠落機構の正確な形式を事前に指定する必要をなくした。
論文 参考訳(メタデータ) (2021-01-18T22:53:29Z) - Adversarial Sample Enhanced Domain Adaptation: A Case Study on
Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。
逆生成したサンプルはドメイン適応時に使用される。
その結果,本手法の有効性とタスクの一般性が確認された。
論文 参考訳(メタデータ) (2021-01-13T03:20:20Z) - CHEER: Rich Model Helps Poor Model via Knowledge Infusion [69.23072792708263]
我々は、そのようなリッチなモデルを伝達可能な表現に簡潔に要約できる知識注入フレームワークCHEERを開発した。
実験の結果、CHEERは複数の生理的データセットのマクロF1スコアにおいて、ベースラインを5.60%から46.80%上回った。
論文 参考訳(メタデータ) (2020-05-21T21:44:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。