論文の概要: Generating Synthetic Electronic Health Record (EHR) Data: A Review with Benchmarking
- arxiv url: http://arxiv.org/abs/2411.04281v1
- Date: Wed, 06 Nov 2024 21:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:40:26.045187
- Title: Generating Synthetic Electronic Health Record (EHR) Data: A Review with Benchmarking
- Title(参考訳): EHR(Synthetic Electronic Health Record)データの生成:ベンチマークによるレビュー
- Authors: Xingran Chen, Zhenke Wu, Xu Shi, Hyunghoon Cho, Bhramar Mukherjee,
- Abstract要約: 方法はオープンソースのEHRデータセットMIMIC-III/IVでベンチマークされる。
ベンチマーク手法の選択をガイドする決定木を提供する。
GANに基づく手法は、訓練群と試験群の間に分布シフトが存在する場合に優れる。
- 参考スコア(独自算出の注目度): 16.827140823757603
- License:
- Abstract: We conduct a scoping review of existing approaches for synthetic EHR data generation, and benchmark major methods with proposed open-source software to offer recommendations for practitioners. We search three academic databases for our scoping review. Methods are benchmarked on open-source EHR datasets, MIMIC-III/IV. Seven existing methods covering major categories and two baseline methods are implemented and compared. Evaluation metrics concern data fidelity, downstream utility, privacy protection, and computational cost. 42 studies are identified and classified into five categories. Seven open-source methods covering all categories are selected, trained on MIMIC-III, and evaluated on MIMIC-III or MIMIC-IV for transportability considerations. Among them, GAN-based methods demonstrate competitive performance in fidelity and utility on MIMIC-III; rule-based methods excel in privacy protection. Similar findings are observed on MIMIC-IV, except that GAN-based methods further outperform the baseline methods in preserving fidelity. A Python package, ``SynthEHRella'', is provided to integrate various choices of approaches and evaluation metrics, enabling more streamlined exploration and evaluation of multiple methods. We found that method choice is governed by the relative importance of the evaluation metrics in downstream use cases. We provide a decision tree to guide the choice among the benchmarked methods. Based on the decision tree, GAN-based methods excel when distributional shifts exist between the training and testing populations. Otherwise, CorGAN and MedGAN are most suitable for association modeling and predictive modeling, respectively. Future research should prioritize enhancing fidelity of the synthetic data while controlling privacy exposure, and comprehensive benchmarking of longitudinal or conditional generation methods.
- Abstract(参考訳): 我々は,既存のEHRデータ生成手法のスコーピングレビューを行い,提案するオープンソースソフトウェアで主要な手法をベンチマークし,実践者への推薦を行う。
我々はスコーピングレビューのために3つの学術データベースを検索する。
方法はオープンソースのEHRデータセットMIMIC-III/IVでベンチマークされる。
主要なカテゴリをカバーする7つの既存メソッドと2つのベースラインメソッドを実装し比較した。
評価指標は、データの忠実性、ダウンストリームユーティリティ、プライバシ保護、計算コストに関するものだ。
42の研究は5つのカテゴリに分類される。
全カテゴリをカバーする7つのオープンソース手法が選択され、MIMIC-IIIで訓練され、MIMIC-IIIまたはMIMIC-IVで輸送性を考慮して評価される。
その中でも、GANベースの手法はMIMIC-III上での忠実さとユーティリティの競争性能を示し、ルールベースの手法はプライバシー保護に優れていた。
同様の発見はMIMIC-IVでも見られるが、GAN法は忠実性を維持するための基準法よりも優れている。
Pythonパッケージである`SynthEHRella'は、アプローチと評価メトリクスのさまざまな選択を統合するために提供されており、複数のメソッドのより合理化された探索と評価を可能にしている。
手法の選択は,下流のユースケースにおける評価指標の相対的重要性に支配されていることがわかった。
ベンチマーク手法の選択をガイドする決定木を提供する。
決定木に基づいて、GANに基づく手法は、訓練群と試験群の間に分布シフトが存在する場合に優れる。
さもなくば、CorGANとMedGANは、それぞれ関連モデリングと予測モデリングに最も適している。
今後の研究は、プライバシーの露出を制御しながら合成データの忠実度を高めること、および縦・条件生成手法の総合的なベンチマークを優先すべきである。
関連論文リスト
- Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
メンバーシップ推論攻撃(MIA)は、特定のインスタンスがターゲットモデルのトレーニングデータの一部であるかどうかを判断することを目的としている。
大規模言語モデル(LLM)にMIAを適用することは、事前学習データの大規模化と、会員シップのあいまいさによって、ユニークな課題をもたらす。
EM-MIAは,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練するLLMの新しいMIA手法である。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attribution Methods [49.62131719441252]
属性法は入力特徴の重要度を計算し、深層モデルの出力予測を説明する。
本研究はまず,属性手法の信頼性ベンチマークが満たすであろう信頼度基準の集合を同定する。
次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
論文 参考訳(メタデータ) (2024-05-02T13:48:37Z) - Current Methods for Drug Property Prediction in the Real World [9.061842820405486]
薬物特性の予測は、高価な臨床試験の前に資産の破壊を可能にするために、薬物発見の鍵となる。
異なる論文が異なるデータセットやメソッドをベンチマークしているため、どの方法やアプローチが最も適しているかは、実践者にとって依然として不明である。
私たちの大規模な経験的研究は、さまざまなデータセットや手法に関する多くの初期の研究を結び付けています。
最良の方法はデータセットに依存しており、古典的なMLメソッドで構築された機能は、ディープラーニングよりも優れていることが分かりました。
論文 参考訳(メタデータ) (2023-07-25T17:50:05Z) - SoK: Privacy-Preserving Data Synthesis [72.92263073534899]
本稿では,プライバシ保護データ合成(PPDS)に注目し,その分野の総合的な概要,分析,議論を行う。
PPDSでは,統計的手法と深層学習(DL)に基づく手法の2つの顕著な研究を統一するマスターレシピを作成した。
論文 参考訳(メタデータ) (2023-07-05T08:29:31Z) - On the role of benchmarking data sets and simulations in method
comparison studies [0.0]
本稿では,シミュレーション研究とベンチマーク研究の相違点と類似点について検討する。
混合手法研究や臨床シナリオ評価など,さまざまな文脈からアイデアを借りる。
論文 参考訳(メタデータ) (2022-08-02T13:47:53Z) - A Multifaceted Benchmarking of Synthetic Electronic Health Record
Generation Models [15.165156674288623]
人工健康データの重要な特徴を評価するために,一般化可能なベンチマークフレームワークを導入する。
その結果, 合成EHRデータの共有にはユーティリティ・プライバシ・トレードオフが存在することがわかった。
論文 参考訳(メタデータ) (2022-08-02T03:44:45Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - Comprehensive Comparative Study of Multi-Label Classification Methods [1.1278903078792917]
マルチラベル分類(MLC)は最近、機械学習コミュニティから関心が高まっています。
この研究は、さまざまなドメインのデータセットの多さに関する幅広いMLCメソッドの包括的な実証的研究を提供する。
論文 参考訳(メタデータ) (2021-02-14T09:38:15Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。