論文の概要: Subpopulation-Specific Synthetic EHR for Better Mortality Prediction
- arxiv url: http://arxiv.org/abs/2305.16363v2
- Date: Mon, 11 Mar 2024 14:18:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 17:29:39.582875
- Title: Subpopulation-Specific Synthetic EHR for Better Mortality Prediction
- Title(参考訳): 寿命予測のためのサブポピュレーション特異的合成EHR
- Authors: Oriel Perets, Nadav Rappoport
- Abstract要約: 生成モデルを利用した新しいアンサンブルフレームワークを提案する。
我々は、各SPに対してGANベースの合成データ生成装置を訓練し、各SPトレーニングセットに合成サンプルを組み込む。
提案手法は,表現不足のSPに対するモデル性能の向上を示す。
- 参考スコア(独自算出の注目度): 0.08367723732029232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Electronic health records (EHR) often contain different rates of
representation of certain subpopulations (SP). Factors like patient
demographics, clinical condition prevalence, and medical center type contribute
to this underrepresentation. Consequently, when training machine learning
models on such datasets, the models struggle to generalize well and perform
poorly on underrepresented SPs. To address this issue, we propose a novel
ensemble framework that utilizes generative models. Specifically, we train a
GAN-based synthetic data generator for each SP and incorporate synthetic
samples into each SP training set. Ultimately, we train SP-specific prediction
models. To properly evaluate this method, we design an evaluation pipeline with
2 real-world use case datasets, queried from the MIMIC database. Our approach
shows increased model performance over underrepresented SPs. Our code and
models are given as supplementary and will be made available on a public
repository.
- Abstract(参考訳): 電子健康記録(EHR)は、特定のサブ集団(SP)の表現率が異なることが多い。
患者人口、臨床症状の有病率、医療センタータイプなどの要因がこの過小評価に寄与する。
その結果、そのようなデータセット上で機械学習モデルをトレーニングする場合、モデルは一般化に苦慮し、表現不足のSPでは性能が悪くなる。
そこで本研究では,生成モデルを利用した新しいアンサンブルフレームワークを提案する。
具体的には、各SPに対してGANベースの合成データ生成装置を訓練し、各SPトレーニングセットに合成サンプルを組み込む。
最終的に、SP固有の予測モデルを訓練する。
本手法を適切に評価するために,MIMICデータベースから検索した2つの実世界のユースケースデータセットを用いた評価パイプラインを設計する。
提案手法は,表現不足のSPに対するモデル性能の向上を示す。
私たちのコードとモデルは補足として提供され、パブリックリポジトリで公開されます。
関連論文リスト
- Tackling Data Heterogeneity in Federated Time Series Forecasting [61.021413959988216]
時系列予測は、エネルギー消費予測、病気の伝染モニタリング、天気予報など、様々な実世界の応用において重要な役割を果たす。
既存のほとんどのメソッドは、分散デバイスから中央クラウドサーバに大量のデータを収集する、集中的なトレーニングパラダイムに依存しています。
本稿では,情報合成データを補助的知識キャリアとして生成することにより,データの均一性に対処する新しいフレームワークであるFed-TRENDを提案する。
論文 参考訳(メタデータ) (2024-11-24T04:56:45Z) - Chatting Up Attachment: Using LLMs to Predict Adult Bonds [0.0]
GPT-4とClaude 3 Opusを使用して、さまざまなプロファイル、子供時代の記憶、アタッチメントスタイルを持つ大人をシミュレートするエージェントを作成します。
我々は,同一の面接プロトコルを施行し,精神保健専門家によって分析・ラベル付けされた9人のヒトの転写データセットを用いて,我々のモデルを評価した。
以上の結果から,合成データのみを用いたモデルトレーニングは,人間のデータを用いたモデルトレーニングに匹敵する性能を発揮することが示唆された。
論文 参考訳(メタデータ) (2024-08-31T04:29:19Z) - Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Private Synthetic Data Meets Ensemble Learning [15.425653946755025]
機械学習モデルが合成データに基づいてトレーニングされ、実際のデータにデプロイされると、しばしばパフォーマンス低下が発生する。
実データを用いた場合のパフォーマンス向上を目標として,下流モデルのトレーニングのための新たなアンサンブル戦略を導入する。
論文 参考訳(メタデータ) (2023-10-15T04:24:42Z) - Evaluating Model Performance in Medical Datasets Over Time [26.471486383140526]
本研究は,EMDOT(A Evaluation on Medical datasets Over Time)フレームワークを提案する。
バックテストの概念にインスパイアされたEMDOTは、実践者が各時点で実行できたかもしれないトレーニング手順をシミュレートする。
データセットによっては、すべての履歴データを使用するのが理想的な場合が多いのに対して、最新のデータのウィンドウを使用する場合、他のケースでは有利な場合があります。
論文 参考訳(メタデータ) (2023-05-22T19:16:00Z) - Unsupervised Probabilistic Models for Sequential Electronic Health
Records [3.8015092217142223]
モデルは、データの基盤構造をエンコードする遅延変数の階層化セットで構成されている。
我々は,北カリフォルニアのKaiser Permanente(カイザー・パーマネンテ)統合型ヘルスケアデリバリーシステムにおいて,医療を受ける被験者のエピソードデータに基づいて,このモデルを訓練する。
トレーニングされたモデルの結果として得られる特性は、これらの複雑で多面的なデータから新しい洞察を生み出す。
論文 参考訳(メタデータ) (2022-04-15T02:11:44Z) - Learning to Adapt Clinical Sequences with Residual Mixture of Experts [12.881413375147996]
全患者の複雑な動態を表現するために,Mixture-of-Experts (MoE)アーキテクチャを提案する。
アーキテクチャは、患者サブポピュレーションをカバーし、ベースモデルの予測を精査する複数の(専門的な)RNNモデルで構成されている。
一つのRNN予測と比較すると, AUPRC統計は4.1%向上した。
論文 参考訳(メタデータ) (2022-04-06T09:23:12Z) - One for More: Selecting Generalizable Samples for Generalizable ReID
Model [92.40951770273972]
本稿では,選択したサンプルを損失関数として一般化する1対3の学習目標を提案する。
提案した1対3のサンプルは,ReIDトレーニングフレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2020-12-10T06:37:09Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - Partially Conditioned Generative Adversarial Networks [75.08725392017698]
Generative Adversarial Networks (GAN)は、実世界のトレーニングデータセットの基盤となる確率分布を暗黙的にモデル化することで、人工データセットを合成する。
条件付きGANとその変種の導入により、これらの手法はデータセット内の各サンプルで利用可能な補助情報に基づいて条件付きサンプルを生成するように拡張された。
本研究では,標準条件付きGANがそのようなタスクに適さないことを論じ,新たなAdversarial Networkアーキテクチャとトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-07-06T15:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。