論文の概要: Downstream Fairness Caveats with Synthetic Healthcare Data
- arxiv url: http://arxiv.org/abs/2203.04462v1
- Date: Wed, 9 Mar 2022 00:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 16:20:26.882493
- Title: Downstream Fairness Caveats with Synthetic Healthcare Data
- Title(参考訳): 医療データを用いた下流のフェアネス洞窟
- Authors: Karan Bhanot, Ioana Baldini, Dennis Wei, Jiaming Zeng and Kristin P.
Bennett
- Abstract要約: プライバシ法は患者のプライバシーを守るためにElectronic Medical Records (EMR)のような健康データへのアクセスを制限する。
本稿では, 偏見を生かした医療データを総合的に評価し, フェアネス緩和技術が便益性に与える影響について検討する。
- 参考スコア(独自算出の注目度): 21.54509987309669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper evaluates synthetically generated healthcare data for biases and
investigates the effect of fairness mitigation techniques on utility-fairness.
Privacy laws limit access to health data such as Electronic Medical Records
(EMRs) to preserve patient privacy. Albeit essential, these laws hinder
research reproducibility. Synthetic data is a viable solution that can enable
access to data similar to real healthcare data without privacy risks.
Healthcare datasets may have biases in which certain protected groups might
experience worse outcomes than others. With the real data having biases, the
fairness of synthetically generated health data comes into question. In this
paper, we evaluate the fairness of models generated on two healthcare datasets
for gender and race biases. We generate synthetic versions of the dataset using
a Generative Adversarial Network called HealthGAN, and compare the real and
synthetic model's balanced accuracy and fairness scores. We find that synthetic
data has different fairness properties compared to real data and fairness
mitigation techniques perform differently, highlighting that synthetic data is
not bias free.
- Abstract(参考訳): 本稿では,合成した医療データを用いたバイアス評価を行い,フェアネス緩和手法が有用性に与える影響について検討する。
プライバシー法は患者のプライバシーを守るために電子医療記録(EMR)のような健康データへのアクセスを制限する。
これらの法律は研究の再現性を妨げている。
合成データは、プライバシーリスクのない実際の医療データに似たデータへのアクセスを可能にする、実行可能なソリューションである。
医療データセットは、特定の保護されたグループが他よりも悪い結果をもたらすバイアスを持つ可能性がある。
実際のデータはバイアスがあり、合成された健康データの公平さが問題になる。
本稿では、性別と人種バイアスの2つの医療データセット上で生成されたモデルの公平性を評価する。
データセットの合成バージョンを、healthganと呼ばれる生成的逆ネットワークを用いて生成し、実モデルと合成モデルのバランスのとれた精度と公平性スコアを比較する。
合成データは, 実データと比較してフェアネス特性が異なること, フェアネス緩和技術が異なること, 合成データはバイアスフリーではないことを強調する。
関連論文リスト
- Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Strong statistical parity through fair synthetic data [0.0]
本稿では,デザインによる公正さを具現化した合成データの作成について検討する。
このような合成データに基づいてトレーニングされた下流モデルは、すべての閾値にわたって公正な予測を提供する。
論文 参考訳(メタデータ) (2023-11-06T10:06:30Z) - The Use of Synthetic Data to Train AI Models: Opportunities and Risks
for Sustainable Development [0.6906005491572401]
本稿では,合成データの生成,利用,普及を規定する政策について検討する。
優れた合成データポリシーは、プライバシの懸念とデータの有用性のバランスを取らなければならない。
論文 参考訳(メタデータ) (2023-08-31T23:18:53Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Investigating Bias with a Synthetic Data Generator: Empirical Evidence
and Philosophical Interpretation [66.64736150040093]
機械学習の応用は、私たちの社会でますます広まりつつある。
リスクは、データに埋め込まれたバイアスを体系的に広めることである。
本稿では,特定の種類のバイアスとその組み合わせで合成データを生成するフレームワークを導入することにより,バイアスを分析することを提案する。
論文 参考訳(メタデータ) (2022-09-13T11:18:50Z) - DECAF: Generating Fair Synthetic Data Using Causally-Aware Generative
Networks [71.6879432974126]
本稿では,GANに基づく表型データのための公正な合成データ生成装置であるDECAFを紹介する。
DeCAFは望ましくないバイアスを除去し,高品質な合成データを生成可能であることを示す。
下流モデルの収束と公平性に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2021-10-25T12:39:56Z) - Bias Mitigated Learning from Differentially Private Synthetic Data: A
Cautionary Tale [13.881022208028751]
バイアスは、合成データ分布が実データ分布の不整合推定であるため、すべての解析に影響を与える可能性がある。
民営化確率比を用いた複数のバイアス緩和戦略を提案する。
バイアス緩和は、合成データの一般的な応用に、シンプルで効果的なプライバシー準拠の強化をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T19:56:44Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Measuring Utility and Privacy of Synthetic Genomic Data [3.635321290763711]
人工ゲノムデータを生成するための5つの最先端モデルの実用性とプライバシ保護を最初に評価する。
全体として、ボード全体でうまく機能する合成ゲノムデータを生成するための単一のアプローチは存在しない。
論文 参考訳(メタデータ) (2021-02-05T17:41:01Z) - Fidelity and Privacy of Synthetic Medical Data [0.0]
医療記録のデジタル化は、新時代のビッグデータから臨床科学へとつながった。
個々のレベルの医療データを共有する必要性は増え続けており、これ以上緊急ではない。
ビッグデータの利用に対する熱意は、患者の自律性とプライバシに対する完全な適切な懸念によって誘惑された。
論文 参考訳(メタデータ) (2021-01-18T23:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。