論文の概要: Representative & Fair Synthetic Data
- arxiv url: http://arxiv.org/abs/2104.03007v1
- Date: Wed, 7 Apr 2021 09:19:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 13:02:25.645154
- Title: Representative & Fair Synthetic Data
- Title(参考訳): 代表的・公正な合成データ
- Authors: Paul Tiwald, Alexandra Ebert, Daniel T. Soukup
- Abstract要約: 公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
- 参考スコア(独自算出の注目度): 68.8204255655161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Algorithms learn rules and associations based on the training data that they
are exposed to. Yet, the very same data that teaches machines to understand and
predict the world, contains societal and historic biases, resulting in biased
algorithms with the risk of further amplifying these once put into use for
decision support. Synthetic data, on the other hand, emerges with the promise
to provide an unlimited amount of representative, realistic training samples,
that can be shared further without disclosing the privacy of individual
subjects. We present a framework to incorporate fairness constraints into the
self-supervised learning process, that allows to then simulate an unlimited
amount of representative as well as fair synthetic data. This framework
provides a handle to govern and control for privacy as well as for bias within
AI at its very source: the training data. We demonstrate the proposed approach
by amending an existing generative model architecture and generating a
representative as well as fair version of the UCI Adult census data set. While
the relationships between attributes are faithfully retained, the gender and
racial biases inherent in the original data are controlled for. This is further
validated by comparing propensity scores of downstream predictive models that
are trained on the original data versus the fair synthetic data. We consider
representative & fair synthetic data a promising future building block to teach
algorithms not on historic worlds, but rather on the worlds that we strive to
live in.
- Abstract(参考訳): アルゴリズムは、公開するトレーニングデータに基づいて、ルールとアソシエーションを学習する。
しかし、機械に世界を理解し、予測するように教えるのと全く同じデータには、社会的偏見と歴史的偏見が含まれており、結果としてバイアスのあるアルゴリズムが、決定支援に一度使用すればさらに増幅するリスクがある。
一方、合成データは、個々の被験者のプライバシを開示することなく、さらに共有可能な、無限の代表的な現実的なトレーニングサンプルを提供することを約束して現れる。
本稿では,公平性制約を自己教師あり学習プロセスに組み込む枠組みを提案する。
このフレームワークは、プライバシの管理とコントロールと、そのソースであるトレーニングデータにおけるAI内のバイアスのハンドラを提供する。
提案手法は,既存の生成モデルアーキテクチャを修正し,uci成人センサスデータセットの公正版と代表版を生成することにより,提案手法を実証する。
属性間の関係は忠実に保持されるが、元のデータに固有の性別や人種バイアスは制御される。
これは、元のデータでトレーニングされた下流予測モデルの傾向スコアと公正な合成データを比較することでさらに検証される。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
関連論文リスト
- Assessment of Differentially Private Synthetic Data for Utility and
Fairness in End-to-End Machine Learning Pipelines for Tabular Data [3.555830838738963]
差分プライベート(DP)合成データセットは、個々のデータプロバイダのプライバシを保持しながらデータを共有するためのソリューションである。
機械学習モデルの訓練と評価に最も効果的な合成データ生成手法を同定する。
論文 参考訳(メタデータ) (2023-10-30T03:37:16Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Demographic Parity: Mitigating Biases in Real-World Data [0.0]
分類ユーティリティを保ちながら不要なバイアスを除去することを保証する頑健な方法論を提案する。
我々のアプローチは、実世界のデータから導出することで、常にモデルに依存しない方法でこれを達成することができる。
論文 参考訳(メタデータ) (2023-09-27T11:47:05Z) - Learning for Counterfactual Fairness from Observational Data [62.43249746968616]
公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。
カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。
本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。
論文 参考訳(メタデータ) (2023-07-17T04:08:29Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T08:13:47Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - DECAF: Generating Fair Synthetic Data Using Causally-Aware Generative
Networks [71.6879432974126]
本稿では,GANに基づく表型データのための公正な合成データ生成装置であるDECAFを紹介する。
DeCAFは望ましくないバイアスを除去し,高品質な合成データを生成可能であることを示す。
下流モデルの収束と公平性に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2021-10-25T12:39:56Z) - An Analysis of the Deployment of Models Trained on Private Tabular
Synthetic Data: Unexpected Surprises [4.129847064263057]
異なるプライベート(DP)合成データセットは、機械学習モデルをトレーニングするための強力なアプローチである。
差分プライベートな合成データ生成が分類に与える影響について検討する。
論文 参考訳(メタデータ) (2021-06-15T21:00:57Z) - Transitioning from Real to Synthetic data: Quantifying the bias in model [1.6134566438137665]
本研究では,合成データを用いたモデルにおけるバイアスと公平性のトレードオフを確立することを目的とする。
合成データを用いて訓練したモデルには、様々なレベルのバイアスの影響があることを実証する。
論文 参考訳(メタデータ) (2021-05-10T06:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。