論文の概要: TabFairGAN: Fair Tabular Data Generation with Generative Adversarial
Networks
- arxiv url: http://arxiv.org/abs/2109.00666v1
- Date: Thu, 2 Sep 2021 01:48:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-03 14:08:18.969377
- Title: TabFairGAN: Fair Tabular Data Generation with Generative Adversarial
Networks
- Title(参考訳): tabfairgan: 生成型adversarial networkによる公正な表型データ生成
- Authors: Amirarsalan Rajabi, Ozlem Ozmen Garibay
- Abstract要約: 本稿では,表データ生成のためのジェネレーティブ・アドバイザリアル・ネットワークを提案する。
我々は、制約のない、制約のない公正なデータ生成の両方のケースで結果をテストする。
我々のモデルは、1つの批評家のみを用いることで、また元のGANモデルの大きな問題を避けることで、より安定している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing reliance on automated decision making, the issue of
algorithmic fairness has gained increasing importance. In this paper, we
propose a Generative Adversarial Network for tabular data generation. The model
includes two phases of training. In the first phase, the model is trained to
accurately generate synthetic data similar to the reference dataset. In the
second phase we modify the value function to add fairness constraint, and
continue training the network to generate data that is both accurate and fair.
We test our results in both cases of unconstrained, and constrained fair data
generation. In the unconstrained case, i.e. when the model is only trained in
the first phase and is only meant to generate accurate data following the same
joint probability distribution of the real data, the results show that the
model beats state-of-the-art GANs proposed in the literature to produce
synthetic tabular data. Also, in the constrained case in which the first phase
of training is followed by the second phase, we train the network and test it
on four datasets studied in the fairness literature and compare our results
with another state-of-the-art pre-processing method, and present the promising
results that it achieves. Comparing to other studies utilizing GANs for fair
data generation, our model is comparably more stable by using only one critic,
and also by avoiding major problems of original GAN model, such as
mode-dropping and non-convergence, by implementing a Wasserstein GAN.
- Abstract(参考訳): 自動意思決定への依存が高まるにつれて、アルゴリズム的公平性の問題の重要性が高まっている。
本稿では,表データ生成のための生成型adversarial networkを提案する。
モデルは2段階のトレーニングを含む。
第1フェーズでは、モデルがトレーニングされ、参照データセットに似た合成データを正確に生成する。
第2フェーズでは、フェアネス制約を加えるために値関数を変更し、正確かつ公正なデータを生成するためにネットワークをトレーニングし続けます。
私たちは、制約のない、公平なデータ生成の両方のケースで結果をテストします。
拘束されていない場合、すなわち、
このモデルが第1フェーズでのみ訓練され、実データの同一の確率分布に追従して正確なデータを生成することを意図した場合には、文献に提示された最先端のganを上回って合成表データを生成する。
また、トレーニングの第1フェーズと第2フェーズが続く制約された場合、ネットワークをトレーニングし、フェアネス文献で研究した4つのデータセット上でテストし、その結果を他の最先端の事前処理手法と比較し、その実現に期待できる結果を示す。
公平なデータ生成にGANを利用する他の研究と比較して、我々のモデルは1つの批評家のみを用いることで、また、Wasserstein GANを実装することで、モードドロップや非収束といった元のGANモデルの大きな問題を回避することで、より安定している。
関連論文リスト
- Marginal Causal Flows for Validation and Inference [3.547529079746247]
複雑なデータから得られる結果に対する介入の限界因果効果を調べることは依然として困難である。
Frugal Flowsは、正規化フローを使用してデータ生成過程を柔軟に学習する新しい確率ベース機械学習モデルである。
シミュレーションと実世界の両方のデータセットで実験を行った。
論文 参考訳(メタデータ) (2024-11-02T16:04:57Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - FLIGAN: Enhancing Federated Learning with Incomplete Data using GAN [1.5749416770494706]
Federated Learning (FL)は、ネットワークデバイス上での機械学習モデルの分散トレーニングのためのプライバシ保護メカニズムを提供する。
本稿では,FLにおけるデータ不完全性問題に対処する新しいアプローチであるFLIGANを提案する。
本手法はFLのプライバシ要件に則り,プロセス内の実際のデータを共有せずに合成データをフェデレートした方法で生成する。
論文 参考訳(メタデータ) (2024-03-25T16:49:38Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T08:13:47Z) - DECAF: Generating Fair Synthetic Data Using Causally-Aware Generative
Networks [71.6879432974126]
本稿では,GANに基づく表型データのための公正な合成データ生成装置であるDECAFを紹介する。
DeCAFは望ましくないバイアスを除去し,高品質な合成データを生成可能であることを示す。
下流モデルの収束と公平性に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2021-10-25T12:39:56Z) - Transitioning from Real to Synthetic data: Quantifying the bias in model [1.6134566438137665]
本研究では,合成データを用いたモデルにおけるバイアスと公平性のトレードオフを確立することを目的とする。
合成データを用いて訓練したモデルには、様々なレベルのバイアスの影響があることを実証する。
論文 参考訳(メタデータ) (2021-05-10T06:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。