論文の概要: MedEqualizer: A Framework Investigating Bias in Synthetic Medical Data and Mitigation via Augmentation
- arxiv url: http://arxiv.org/abs/2511.01054v1
- Date: Sun, 02 Nov 2025 19:16:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.046254
- Title: MedEqualizer: A Framework Investigating Bias in Synthetic Medical Data and Mitigation via Augmentation
- Title(参考訳): MedEqualizer: 合成医療データとAugmentationによる緩和のバイアス調査フレームワーク
- Authors: Sama Salarian, Yue Zhang, Swati Padhee, Srinivasan Parthasarathy,
- Abstract要約: MIMIC-IIIデータセットを用いたGANモデルを用いて合成データの公平性を評価する。
MedEqualizerはモデルに依存しない拡張フレームワークで、合成データ生成の前に表現されていない部分群を豊かにする。
- 参考スコア(独自算出の注目度): 8.526339099878962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic healthcare data generation presents a viable approach to enhance data accessibility and support research by overcoming limitations associated with real-world medical datasets. However, ensuring fairness across protected attributes in synthetic data is critical to avoid biased or misleading results in clinical research and decision-making. In this study, we assess the fairness of synthetic data generated by multiple generative adversarial network (GAN)-based models using the MIMIC-III dataset, with a focus on representativeness across protected demographic attributes. We measure subgroup representation using the logarithmic disparity metric and observe significant imbalances, with many subgroups either underrepresented or overrepresented in the synthetic data, compared to the real data. To mitigate these disparities, we introduce MedEqualizer, a model-agnostic augmentation framework that enriches the underrepresented subgroups prior to synthetic data generation. Our results show that MedEqualizer significantly improves demographic balance in the resulting synthetic datasets, offering a viable path towards more equitable and representative healthcare data synthesis.
- Abstract(参考訳): 合成医療データ生成は、実際の医療データセットに関連する制限を克服し、データアクセシビリティを高め、研究を支援するための実行可能なアプローチを提供する。
しかしながら、臨床研究や意思決定において、保護された属性間の公正性を確保することは、偏見や誤解を招く結果を避けるために重要である。
本研究では,MIMIC-IIIデータセットを用いたGANモデルを用いて生成した合成データの公平性を評価する。
対数的不均一度測定を用いて部分群表現を測定し,多くの部分群は実データと比較して,合成データに過小評価されるか過剰に表現されるかのいずれかで,重要な不均衡を観測する。
これらの格差を緩和するために、合成データ生成に先立って、表現不足のサブグループを豊かにするモデルに依存しない拡張フレームワークであるMedEqualizerを導入する。
以上の結果から,MedEqualizerは生合成データセットの人口収支を著しく改善し,より公平で代表的な医療データ合成への道筋が整ったことが示唆された。
関連論文リスト
- Improving the Generation and Evaluation of Synthetic Data for Downstream Medical Causal Inference [89.5628648718851]
因果推論は医療介入の開発と評価に不可欠である。
現実の医療データセットは、規制障壁のためアクセスが難しいことが多い。
本稿では,医学における治療効果分析のための新しい合成データ生成法STEAMを提案する。
論文 参考訳(メタデータ) (2025-10-21T16:16:00Z) - Understanding the Influence of Synthetic Data for Text Embedders [52.04771455432998]
まず,Wangらによって提案された合成データの再生と公開を行った。
合成データがモデル一般化をどのように改善するかを批判的に検討する。
本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
論文 参考訳(メタデータ) (2025-09-07T19:28:52Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Bt-GAN: Generating Fair Synthetic Healthdata via Bias-transforming Generative Adversarial Networks [3.3903891679981593]
本稿では,医療領域に特化して設計されたGANベースの合成データジェネレータであるBias-transforming Generative Adversarial Networks (Bt-GAN)について述べる。
以上の結果から,Bt-GANはSOTA精度を向上し,公平性とバイアスの最小化を図った。
論文 参考訳(メタデータ) (2024-04-21T12:16:38Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Evaluation of the Synthetic Electronic Health Records [3.255030588361125]
本研究は、合成データセットのサンプルワイズ評価のための類似性と特異性という2つの指標を概説する。
本研究は,Cystic Fibrosis (CF) 患者の電子的健康記録を合成するために,いくつかの最先端の遺伝子モデルを用いて提案された概念を実証する。
論文 参考訳(メタデータ) (2022-10-16T22:46:08Z) - Synthesising Electronic Health Records: Cystic Fibrosis Patient Group [3.255030588361125]
本稿では,患者電子健康記録を合成する合成データ生成機能について検討する。
本研究では, 患者結果分類のための合成データの有用性を検証し, 不均衡なデータセットを合成データで拡張する際の予測性能の向上を検証した。
論文 参考訳(メタデータ) (2022-01-14T11:35:18Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。