論文の概要: MCRAGE: Synthetic Healthcare Data for Fairness
- arxiv url: http://arxiv.org/abs/2310.18430v1
- Date: Fri, 27 Oct 2023 19:02:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 18:47:23.714273
- Title: MCRAGE: Synthetic Healthcare Data for Fairness
- Title(参考訳): MCRAGE:フェアネスのための医療データ
- Authors: Keira Behal, Jiayi Chen, Caleb Fikes, and Sophia Xiao
- Abstract要約: 医療データセットは、人種や民族、性別、年齢などのセンシティブな属性の観点から、しばしば不均衡である。
そこで本稿では,MCRAGE (Generative Modeling) の強化による不均衡データセットの増大によるマイノリティクラス再バランスを提案する。
- 参考スコア(独自算出の注目度): 3.0089659534785853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of healthcare, electronic health records (EHR) serve as crucial
training data for developing machine learning models for diagnosis, treatment,
and the management of healthcare resources. However, medical datasets are often
imbalanced in terms of sensitive attributes such as race/ethnicity, gender, and
age. Machine learning models trained on class-imbalanced EHR datasets perform
significantly worse in deployment for individuals of the minority classes
compared to samples from majority classes, which may lead to inequitable
healthcare outcomes for minority groups. To address this challenge, we propose
Minority Class Rebalancing through Augmentation by Generative modeling
(MCRAGE), a novel approach to augment imbalanced datasets using samples
generated by a deep generative model. The MCRAGE process involves training a
Conditional Denoising Diffusion Probabilistic Model (CDDPM) capable of
generating high-quality synthetic EHR samples from underrepresented classes. We
use this synthetic data to augment the existing imbalanced dataset, thereby
achieving a more balanced distribution across all classes, which can be used to
train an unbiased machine learning model. We measure the performance of MCRAGE
versus alternative approaches using Accuracy, F1 score and AUROC. We provide
theoretical justification for our method in terms of recent convergence results
for DDPMs with minimal assumptions.
- Abstract(参考訳): 医療分野において、電子健康記録(EHR)は、医療資源の診断、治療、管理のための機械学習モデルを開発するための重要なトレーニングデータである。
しかし、人種や民族、性別、年齢といったセンシティブな属性では、医療データセットはしばしばバランスが取れない。
クラス不均衡なEHRデータセットに基づいてトレーニングされた機械学習モデルは、マイノリティークラスの個人に対して、マイノリティークラスのサンプルと比較して、デプロイにおいて著しく悪化する。
この課題に対処するために,深層生成モデルによって生成されたサンプルを用いて不均衡データセットを補完する新しい手法である生成モデル(mcrage)による拡張によるマイノリティクラスリバランスを提案する。
MCRAGEプロセスは、未表現のクラスから高品質な合成EHRサンプルを生成することができる条件付き脱ノイズ拡散確率モデル(CDDPM)を訓練する。
この合成データを既存の不均衡データセットの強化に利用することで、偏りのない機械学習モデルのトレーニングに使用できる、全クラスにわたるよりバランスの取れた分散を実現する。
精度,F1スコア,AUROCを用いたMCRAGEと代替手法の比較を行った。
最小の仮定を持つDDPMに対する最近の収束結果の観点から,本手法の理論的正当性を示す。
関連論文リスト
- Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
大規模なデータセットのトレーニングによるスケーリングは、画像生成の品質と忠実度を高め、拡散モデルによる操作を可能にすることが示されている。
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
本研究は,異なる微調整方式と組み合わせた場合,様々なシナリオにおいて顕著な性能向上を示すものである。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - Debiasing Cardiac Imaging with Controlled Latent Diffusion Models [1.802269171647208]
本稿では,データセットに固有の不均衡を,合成データの生成によって緩和する手法を提案する。
我々は,患者メタデータと心臓の形状から合成したテキストを条件に,拡散確率モデルに基づく制御ネットを採用する。
本実験は,データセットの不均衡を緩和する手法の有効性を実証するものである。
論文 参考訳(メタデータ) (2024-03-28T15:41:43Z) - Iterative Online Image Synthesis via Diffusion Model for Imbalanced
Classification [29.730360798234294]
医用画像分類におけるクラス不均衡問題に対処するための反復オンライン画像合成フレームワークを提案する。
このフレームワークにはオンライン画像合成(OIS)と精度適応サンプリング(AAS)という2つの重要なモジュールが組み込まれている。
不均衡な分類に対処するための提案手法の有効性を評価するため,HAM10000およびAPTOSデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2024-03-13T10:51:18Z) - STEM Rebalance: A Novel Approach for Tackling Imbalanced Datasets using
SMOTE, Edited Nearest Neighbour, and Mixup [0.20482269513546458]
医用画像における非バランスなデータセットは、スクイードクラスの割合と異常な症例の不足によって特徴づけられる。
本稿では,Mixup Augmentation を用いて新たなデータポイントを汎用的なビジナル分布として生成する可能性について検討する。
不均衡なデータセットが一般的である乳癌の問題に焦点をあてる。
論文 参考訳(メタデータ) (2023-11-13T17:45:28Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Class-Balancing Diffusion Models [57.38599989220613]
クラスバランシング拡散モデル(CBDM)は、分散調整正規化器をソリューションとして訓練する。
提案手法は,CIFAR100/CIFAR100LTデータセットで生成結果をベンチマークし,下流認識タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-30T20:00:14Z) - Density-Aware Personalized Training for Risk Prediction in Imbalanced
Medical Data [89.79617468457393]
不均衡率(クラス密度差)のトレーニングモデルは、最適以下の予測につながる可能性がある。
この不均衡問題に対するモデルトレーニングのためのフレームワークを提案する。
実世界の医療データセットにおけるモデルの性能向上を実証する。
論文 参考訳(メタデータ) (2022-07-23T00:39:53Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Single Model Deep Learning on Imbalanced Small Datasets for Skin Lesion
Classification [5.642359877598896]
本稿では,小・不均衡なデータセットに基づく皮膚病変の単一モデル分類のための新しいデータ拡張戦略を提案する。
このデータセット上で、様々なDCNNがトレーニングされ、適度な複雑さを持つモデルがより大きなモデルより優れていることを示す。
修正RandAugmentとMulti-weighted Focal Lossを1つのDCNNモデルで組み合わせることで、ISIC 2018チャレンジテストデータセット上の複数のアンサンブルモデルに匹敵する分類精度を達成した。
論文 参考訳(メタデータ) (2021-02-02T03:48:55Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。