論文の概要: Bt-GAN: Generating Fair Synthetic Healthdata via Bias-transforming Generative Adversarial Networks
- arxiv url: http://arxiv.org/abs/2404.13634v2
- Date: Wed, 24 Apr 2024 07:06:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-25 16:05:24.539971
- Title: Bt-GAN: Generating Fair Synthetic Healthdata via Bias-transforming Generative Adversarial Networks
- Title(参考訳): Bt-GAN: Bias-transforming Generative Adversarial Networksによる公正な合成健康データの生成
- Authors: Resmi Ramachandranpillai, Md Fahim Sikder, David Bergström, Fredrik Heintz,
- Abstract要約: 本稿では,医療領域に特化して設計されたGANベースの合成データジェネレータであるBias-transforming Generative Adversarial Networks (Bt-GAN)について述べる。
以上の結果から,Bt-GANはSOTA精度を向上し,公平性とバイアスの最小化を図った。
- 参考スコア(独自算出の注目度): 3.3903891679981593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data generation offers a promising solution to enhance the usefulness of Electronic Healthcare Records (EHR) by generating realistic de-identified data. However, the existing literature primarily focuses on the quality of synthetic health data, neglecting the crucial aspect of fairness in downstream predictions. Consequently, models trained on synthetic EHR have faced criticism for producing biased outcomes in target tasks. These biases can arise from either spurious correlations between features or the failure of models to accurately represent sub-groups. To address these concerns, we present Bias-transforming Generative Adversarial Networks (Bt-GAN), a GAN-based synthetic data generator specifically designed for the healthcare domain. In order to tackle spurious correlations (i), we propose an information-constrained Data Generation Process that enables the generator to learn a fair deterministic transformation based on a well-defined notion of algorithmic fairness. To overcome the challenge of capturing exact sub-group representations (ii), we incentivize the generator to preserve sub-group densities through score-based weighted sampling. This approach compels the generator to learn from underrepresented regions of the data manifold. We conduct extensive experiments using the MIMIC-III database. Our results demonstrate that Bt-GAN achieves SOTA accuracy while significantly improving fairness and minimizing bias amplification. We also perform an in-depth explainability analysis to provide additional evidence supporting the validity of our study. In conclusion, our research introduces a novel and professional approach to addressing the limitations of synthetic data generation in the healthcare domain. By incorporating fairness considerations and leveraging advanced techniques such as GANs, we pave the way for more reliable and unbiased predictions in healthcare applications.
- Abstract(参考訳): 合成データ生成は、現実的な非識別データを生成することにより、電子医療記録(EHR)の有用性を高めるための有望なソリューションを提供する。
しかし、既存の文献は、下流予測における公平性の重要な側面を無視して、合成健康データの品質に重点を置いている。
その結果、合成EHRで訓練されたモデルは、目標タスクにおいてバイアスのある結果を生み出すという批判に直面している。
これらのバイアスは、特徴間の急激な相関や、サブグループを正確に表現するモデルの失敗から生じることがある。
これらの問題に対処するために、医療領域向けに設計されたGANベースの合成データ生成装置であるBt-GAN(Bias-transforming Generative Adversarial Networks)を提案する。
素早い相関に挑戦するために
i) 情報制約付きデータ生成プロセスを提案し, アルゴリズムの公正性の概念に基づいて, 生成者が公正な決定論的変換を学習できるようにする。
正確な部分群表現の取得という課題を克服する
(II) スコアベース重み付けサンプリングにより, サブグループ密度を保ち, ジェネレータにインセンティブを与える。
このアプローチは、データ多様体の未表現領域から学習するジェネレータを補完する。
我々はMIMIC-IIIデータベースを用いて広範囲にわたる実験を行った。
以上の結果から,Bt-GANはSOTAの精度を向上し,公平性を向上し,バイアス増幅を最小化できることがわかった。
また,本研究の有効性を裏付ける証拠として,詳細な説明可能性分析を行った。
そこで本研究では,医療領域における合成データ生成の限界に対処するための,新規かつ専門的なアプローチを提案する。
公平性を考慮し、GANのような高度な技術を活用することで、医療応用における信頼性と偏見のない予測の道を開く。
関連論文リスト
- Data Augmentation via Diffusion Model to Enhance AI Fairness [1.2979015577834876]
本稿では,AIフェアネスを改善するために合成データを生成する拡散モデルの可能性について検討する。
Tabular Denoising Diffusion Probabilistic Model (Tab-DDPM) を用いてデータ拡張を行った。
実験結果から,Tab-DDPMにより生成された合成データは,二項分類の公平性を向上させることが示された。
論文 参考訳(メタデータ) (2024-10-20T18:52:31Z) - Debiasing Cardiac Imaging with Controlled Latent Diffusion Models [1.802269171647208]
本稿では,データセットに固有の不均衡を,合成データの生成によって緩和する手法を提案する。
我々は,患者メタデータと心臓の形状から合成したテキストを条件に,拡散確率モデルに基づく制御ネットを採用する。
本実験は,データセットの不均衡を緩和する手法の有効性を実証するものである。
論文 参考訳(メタデータ) (2024-03-28T15:41:43Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited
Data [125.7135706352493]
GAN(Generative Adversarial Network)は、高忠実度画像を合成するために、訓練に十分なデータを必要とする。
近年の研究では、差別者の過度な適合により、限られたデータでGANを訓練することは困難であることが示されている。
本稿では,APA (Adaptive Pseudo Augmentation) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T18:13:45Z) - Improving Model Compatibility of Generative Adversarial Networks by
Boundary Calibration [24.28407308818025]
境界キャリブレーションGAN(BCGAN)は、GANのモデル互換性を改善するために提案される。
BCGANはオリジナルのGANのようなリアルなイメージを生成するが、オリジナルのGANよりも優れたモデル互換性を実現する。
論文 参考訳(メタデータ) (2021-11-03T16:08:09Z) - DECAF: Generating Fair Synthetic Data Using Causally-Aware Generative
Networks [71.6879432974126]
本稿では,GANに基づく表型データのための公正な合成データ生成装置であるDECAFを紹介する。
DeCAFは望ましくないバイアスを除去し,高品質な合成データを生成可能であることを示す。
下流モデルの収束と公平性に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2021-10-25T12:39:56Z) - Categorical EHR Imputation with Generative Adversarial Nets [11.171712535005357]
本稿では,データ計算のためのGANに関する従来の研究を基にした,シンプルで効果的な手法を提案する。
従来のデータ計算手法に比べて予測精度が大幅に向上していることを示す。
論文 参考訳(メタデータ) (2021-08-03T18:50:26Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。