論文の概要: FairGen: Fair Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2210.13023v2
- Date: Thu, 1 Dec 2022 10:28:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 12:01:52.040827
- Title: FairGen: Fair Synthetic Data Generation
- Title(参考訳): FairGen: 公正な合成データ生成
- Authors: Bhushan Chaudhari, Himanshu Chaudhary, Aakash Agarwal, Kamna Meena,
Tanmoy Bhowmik
- Abstract要約: 本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
- 参考スコア(独自算出の注目度): 0.3149883354098941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rising adoption of Machine Learning across the domains like banking,
pharmaceutical, ed-tech, etc, it has become utmost important to adopt
responsible AI methods to ensure models are not unfairly discriminating against
any group. Given the lack of clean training data, generative adversarial
techniques are preferred to generate synthetic data with several
state-of-the-art architectures readily available across various domains from
unstructured data such as text, images to structured datasets modelling fraud
detection and many more. These techniques overcome several challenges such as
class imbalance, limited training data, restricted access to data due to
privacy issues. Existing work focusing on generating fair data either works for
a certain GAN architecture or is very difficult to tune across the GANs. In
this paper, we propose a pipeline to generate fairer synthetic data independent
of the GAN architecture. The proposed paper utilizes a pre-processing algorithm
to identify and remove bias inducing samples. In particular, we claim that
while generating synthetic data most GANs amplify bias present in the training
data but by removing these bias inducing samples, GANs essentially focuses more
on real informative samples. Our experimental evaluation on two open-source
datasets demonstrates how the proposed pipeline is generating fair data along
with improved performance in some cases.
- Abstract(参考訳): 銀行、製薬、エドテックなどの分野における機械学習の普及に伴い、モデルがあらゆるグループに対して不公平に差別されないように、責任あるai手法を採用することが最も重要になっている。
クリーンなトレーニングデータがないことから、生成的な敵対的手法は、テキスト、画像、不正検出をモデル化する構造化データセットなどの非構造化データから、さまざまなドメインにまたがる最先端アーキテクチャによる合成データを生成するのが望ましい。
これらのテクニックは、クラス不均衡、限られたトレーニングデータ、プライバシー問題によるデータへのアクセス制限など、いくつかの課題を克服する。
公正なデータを生成することに焦点を当てた既存の作業は、特定のGANアーキテクチャで機能するか、あるいはGAN間でチューニングするのが非常に困難です。
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
本論文はバイアス誘発サンプルの同定と除去に前処理アルゴリズムを用いる。
特に、合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアス誘発サンプルを除去することで、GANは本質的に真の情報的サンプルに焦点を当てる。
2つのオープンソースのデータセットを実験的に評価した結果,提案するパイプラインが公平なデータを生成する方法と,その性能向上を実証した。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - FLIGAN: Enhancing Federated Learning with Incomplete Data using GAN [1.5749416770494706]
Federated Learning (FL)は、ネットワークデバイス上での機械学習モデルの分散トレーニングのためのプライバシ保護メカニズムを提供する。
本稿では,FLにおけるデータ不完全性問題に対処する新しいアプローチであるFLIGANを提案する。
本手法はFLのプライバシ要件に則り,プロセス内の実際のデータを共有せずに合成データをフェデレートした方法で生成する。
論文 参考訳(メタデータ) (2024-03-25T16:49:38Z) - Assessment of Differentially Private Synthetic Data for Utility and
Fairness in End-to-End Machine Learning Pipelines for Tabular Data [3.555830838738963]
差分プライベート(DP)合成データセットは、個々のデータプロバイダのプライバシを保持しながらデータを共有するためのソリューションである。
機械学習モデルの訓練と評価に最も効果的な合成データ生成手法を同定する。
論文 参考訳(メタデータ) (2023-10-30T03:37:16Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - DECAF: Generating Fair Synthetic Data Using Causally-Aware Generative
Networks [71.6879432974126]
本稿では,GANに基づく表型データのための公正な合成データ生成装置であるDECAFを紹介する。
DeCAFは望ましくないバイアスを除去し,高品質な合成データを生成可能であることを示す。
下流モデルの収束と公平性に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2021-10-25T12:39:56Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Transitioning from Real to Synthetic data: Quantifying the bias in model [1.6134566438137665]
本研究では,合成データを用いたモデルにおけるバイアスと公平性のトレードオフを確立することを目的とする。
合成データを用いて訓練したモデルには、様々なレベルのバイアスの影響があることを実証する。
論文 参考訳(メタデータ) (2021-05-10T06:57:14Z) - Lessons Learned from the Training of GANs on Artificial Datasets [0.0]
GAN(Generative Adversarial Networks)は,近年,現実的な画像の合成において大きな進歩を遂げている。
GANは不適合や過度に適合する傾向があり、分析が困難で制約を受ける。
無限に多くのサンプルがあり、実際のデータ分布は単純である人工データセットでトレーニングする。
GANのトレーニング混合物はネットワークの深さや幅を増大させるよりもパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2020-07-13T14:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。