論文の概要: Subpopulation-Specific Synthetic EHR for Better Mortality Prediction
- arxiv url: http://arxiv.org/abs/2305.16363v2
- Date: Mon, 11 Mar 2024 14:18:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 17:29:39.582875
- Title: Subpopulation-Specific Synthetic EHR for Better Mortality Prediction
- Title(参考訳): 寿命予測のためのサブポピュレーション特異的合成EHR
- Authors: Oriel Perets, Nadav Rappoport
- Abstract要約: 生成モデルを利用した新しいアンサンブルフレームワークを提案する。
我々は、各SPに対してGANベースの合成データ生成装置を訓練し、各SPトレーニングセットに合成サンプルを組み込む。
提案手法は,表現不足のSPに対するモデル性能の向上を示す。
- 参考スコア(独自算出の注目度): 0.08367723732029232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Electronic health records (EHR) often contain different rates of
representation of certain subpopulations (SP). Factors like patient
demographics, clinical condition prevalence, and medical center type contribute
to this underrepresentation. Consequently, when training machine learning
models on such datasets, the models struggle to generalize well and perform
poorly on underrepresented SPs. To address this issue, we propose a novel
ensemble framework that utilizes generative models. Specifically, we train a
GAN-based synthetic data generator for each SP and incorporate synthetic
samples into each SP training set. Ultimately, we train SP-specific prediction
models. To properly evaluate this method, we design an evaluation pipeline with
2 real-world use case datasets, queried from the MIMIC database. Our approach
shows increased model performance over underrepresented SPs. Our code and
models are given as supplementary and will be made available on a public
repository.
- Abstract(参考訳): 電子健康記録(EHR)は、特定のサブ集団(SP)の表現率が異なることが多い。
患者人口、臨床症状の有病率、医療センタータイプなどの要因がこの過小評価に寄与する。
その結果、そのようなデータセット上で機械学習モデルをトレーニングする場合、モデルは一般化に苦慮し、表現不足のSPでは性能が悪くなる。
そこで本研究では,生成モデルを利用した新しいアンサンブルフレームワークを提案する。
具体的には、各SPに対してGANベースの合成データ生成装置を訓練し、各SPトレーニングセットに合成サンプルを組み込む。
最終的に、SP固有の予測モデルを訓練する。
本手法を適切に評価するために,MIMICデータベースから検索した2つの実世界のユースケースデータセットを用いた評価パイプラインを設計する。
提案手法は,表現不足のSPに対するモデル性能の向上を示す。
私たちのコードとモデルは補足として提供され、パブリックリポジトリで公開されます。
関連論文リスト
- No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Private Synthetic Data Meets Ensemble Learning [15.425653946755025]
機械学習モデルが合成データに基づいてトレーニングされ、実際のデータにデプロイされると、しばしばパフォーマンス低下が発生する。
実データを用いた場合のパフォーマンス向上を目標として,下流モデルのトレーニングのための新たなアンサンブル戦略を導入する。
論文 参考訳(メタデータ) (2023-10-15T04:24:42Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Evaluating Model Performance in Medical Datasets Over Time [26.471486383140526]
本研究は,EMDOT(A Evaluation on Medical datasets Over Time)フレームワークを提案する。
バックテストの概念にインスパイアされたEMDOTは、実践者が各時点で実行できたかもしれないトレーニング手順をシミュレートする。
データセットによっては、すべての履歴データを使用するのが理想的な場合が多いのに対して、最新のデータのウィンドウを使用する場合、他のケースでは有利な場合があります。
論文 参考訳(メタデータ) (2023-05-22T19:16:00Z) - Synthesizing Mixed-type Electronic Health Records using Diffusion Models [10.973115905786129]
合成データ生成は、機密性の高い患者情報を共有する際のプライバシー上の懸念を軽減するための有望なソリューションである。
近年の研究では、拡散モデルは、より現実的な合成データの生成や、画像、テキスト、音声などのデータモダリティの生成における安定したトレーニングなど、GANに対していくつかの利点があることが示された。
実験の結果,TabDDPMは,プライバシーとユーティリティのトレードオフを確認するプライバシー以外のすべての評価指標において,最先端モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-28T15:42:30Z) - Unsupervised Probabilistic Models for Sequential Electronic Health
Records [3.8015092217142223]
モデルは、データの基盤構造をエンコードする遅延変数の階層化セットで構成されている。
我々は,北カリフォルニアのKaiser Permanente(カイザー・パーマネンテ)統合型ヘルスケアデリバリーシステムにおいて,医療を受ける被験者のエピソードデータに基づいて,このモデルを訓練する。
トレーニングされたモデルの結果として得られる特性は、これらの複雑で多面的なデータから新しい洞察を生み出す。
論文 参考訳(メタデータ) (2022-04-15T02:11:44Z) - Learning to Adapt Clinical Sequences with Residual Mixture of Experts [12.881413375147996]
全患者の複雑な動態を表現するために,Mixture-of-Experts (MoE)アーキテクチャを提案する。
アーキテクチャは、患者サブポピュレーションをカバーし、ベースモデルの予測を精査する複数の(専門的な)RNNモデルで構成されている。
一つのRNN予測と比較すると, AUPRC統計は4.1%向上した。
論文 参考訳(メタデータ) (2022-04-06T09:23:12Z) - One for More: Selecting Generalizable Samples for Generalizable ReID
Model [92.40951770273972]
本稿では,選択したサンプルを損失関数として一般化する1対3の学習目標を提案する。
提案した1対3のサンプルは,ReIDトレーニングフレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2020-12-10T06:37:09Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - Partially Conditioned Generative Adversarial Networks [75.08725392017698]
Generative Adversarial Networks (GAN)は、実世界のトレーニングデータセットの基盤となる確率分布を暗黙的にモデル化することで、人工データセットを合成する。
条件付きGANとその変種の導入により、これらの手法はデータセット内の各サンプルで利用可能な補助情報に基づいて条件付きサンプルを生成するように拡張された。
本研究では,標準条件付きGANがそのようなタスクに適さないことを論じ,新たなAdversarial Networkアーキテクチャとトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-07-06T15:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。