論文の概要: TabFairGAN: Fair Tabular Data Generation with Generative Adversarial
Networks
- arxiv url: http://arxiv.org/abs/2109.00666v1
- Date: Thu, 2 Sep 2021 01:48:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-03 14:08:18.969377
- Title: TabFairGAN: Fair Tabular Data Generation with Generative Adversarial
Networks
- Title(参考訳): tabfairgan: 生成型adversarial networkによる公正な表型データ生成
- Authors: Amirarsalan Rajabi, Ozlem Ozmen Garibay
- Abstract要約: 本稿では,表データ生成のためのジェネレーティブ・アドバイザリアル・ネットワークを提案する。
我々は、制約のない、制約のない公正なデータ生成の両方のケースで結果をテストする。
我々のモデルは、1つの批評家のみを用いることで、また元のGANモデルの大きな問題を避けることで、より安定している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing reliance on automated decision making, the issue of
algorithmic fairness has gained increasing importance. In this paper, we
propose a Generative Adversarial Network for tabular data generation. The model
includes two phases of training. In the first phase, the model is trained to
accurately generate synthetic data similar to the reference dataset. In the
second phase we modify the value function to add fairness constraint, and
continue training the network to generate data that is both accurate and fair.
We test our results in both cases of unconstrained, and constrained fair data
generation. In the unconstrained case, i.e. when the model is only trained in
the first phase and is only meant to generate accurate data following the same
joint probability distribution of the real data, the results show that the
model beats state-of-the-art GANs proposed in the literature to produce
synthetic tabular data. Also, in the constrained case in which the first phase
of training is followed by the second phase, we train the network and test it
on four datasets studied in the fairness literature and compare our results
with another state-of-the-art pre-processing method, and present the promising
results that it achieves. Comparing to other studies utilizing GANs for fair
data generation, our model is comparably more stable by using only one critic,
and also by avoiding major problems of original GAN model, such as
mode-dropping and non-convergence, by implementing a Wasserstein GAN.
- Abstract(参考訳): 自動意思決定への依存が高まるにつれて、アルゴリズム的公平性の問題の重要性が高まっている。
本稿では,表データ生成のための生成型adversarial networkを提案する。
モデルは2段階のトレーニングを含む。
第1フェーズでは、モデルがトレーニングされ、参照データセットに似た合成データを正確に生成する。
第2フェーズでは、フェアネス制約を加えるために値関数を変更し、正確かつ公正なデータを生成するためにネットワークをトレーニングし続けます。
私たちは、制約のない、公平なデータ生成の両方のケースで結果をテストします。
拘束されていない場合、すなわち、
このモデルが第1フェーズでのみ訓練され、実データの同一の確率分布に追従して正確なデータを生成することを意図した場合には、文献に提示された最先端のganを上回って合成表データを生成する。
また、トレーニングの第1フェーズと第2フェーズが続く制約された場合、ネットワークをトレーニングし、フェアネス文献で研究した4つのデータセット上でテストし、その結果を他の最先端の事前処理手法と比較し、その実現に期待できる結果を示す。
公平なデータ生成にGANを利用する他の研究と比較して、我々のモデルは1つの批評家のみを用いることで、また、Wasserstein GANを実装することで、モードドロップや非収束といった元のGANモデルの大きな問題を回避することで、より安定している。
関連論文リスト
- Towards Theoretical Understandings of Self-Consuming Generative Models [60.98692028151328]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,この学習規則が将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
我々は拡散モデルに一般結果を特化し、自己消費ループ内での最適な早期停止の有効性などの微妙な洞察を提供する。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Generative Modeling for Tabular Data via Penalized Optimal Transport
Network [2.0319002824093015]
Wasserstein generative adversarial network (WGAN) は、生成モデルにおいて顕著な改善である。
本稿では,新しい,頑健で解釈可能な辺縁補償型Wasserstein(MPW)損失に基づく生成型ディープニューラルネットワークPOTNetを提案する。
論文 参考訳(メタデータ) (2024-02-16T05:27:05Z) - Fake It Till Make It: Federated Learning with Consensus-Oriented
Generation [52.82176415223988]
コンセンサス指向生成による連合学習(FedCOG)を提案する。
FedCOGは、補完的なデータ生成と知識蒸留に基づくモデルトレーニングという、クライアント側の2つの重要なコンポーネントで構成されています。
古典的および実世界のFLデータセットの実験は、FedCOGが一貫して最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2023-12-10T18:49:59Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data
Distribution [76.33705947080871]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - On the Stability of Iterative Retraining of Generative Models on their
own Data [56.153542044045224]
生成モデルの訓練がデータセット(実データと合成データの混合データ)の安定性に及ぼす影響について検討した。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は,CIFAR10およびFFHQ上の正規化フローと最先端拡散モデルの反復的訓練により,合成画像と自然画像の両方に関する理論を実証的に検証した。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T08:13:47Z) - DECAF: Generating Fair Synthetic Data Using Causally-Aware Generative
Networks [71.6879432974126]
本稿では,GANに基づく表型データのための公正な合成データ生成装置であるDECAFを紹介する。
DeCAFは望ましくないバイアスを除去し,高品質な合成データを生成可能であることを示す。
下流モデルの収束と公平性に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2021-10-25T12:39:56Z) - Transitioning from Real to Synthetic data: Quantifying the bias in model [1.6134566438137665]
本研究では,合成データを用いたモデルにおけるバイアスと公平性のトレードオフを確立することを目的とする。
合成データを用いて訓練したモデルには、様々なレベルのバイアスの影響があることを実証する。
論文 参考訳(メタデータ) (2021-05-10T06:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。