Fugu-MT 論文翻訳(概要): TabFairGAN: Fair Tabular Data Generation with Generative Adversarial Networks

論文の概要: TabFairGAN: Fair Tabular Data Generation with Generative Adversarial Networks

arxiv url: http://arxiv.org/abs/2109.00666v1
Date: Thu, 2 Sep 2021 01:48:01 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-03 14:08:18.969377
Title: TabFairGAN: Fair Tabular Data Generation with Generative Adversarial Networks
Title（参考訳）: tabfairgan: 生成型adversarial networkによる公正な表型データ生成
Authors: Amirarsalan Rajabi, Ozlem Ozmen Garibay
Abstract要約: 本稿では,表データ生成のためのジェネレーティブ・アドバイザリアル・ネットワークを提案する。我々は、制約のない、制約のない公正なデータ生成の両方のケースで結果をテストする。我々のモデルは、1つの批評家のみを用いることで、また元のGANモデルの大きな問題を避けることで、より安定している。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the increasing reliance on automated decision making, the issue of algorithmic fairness has gained increasing importance. In this paper, we propose a Generative Adversarial Network for tabular data generation. The model includes two phases of training. In the first phase, the model is trained to accurately generate synthetic data similar to the reference dataset. In the second phase we modify the value function to add fairness constraint, and continue training the network to generate data that is both accurate and fair. We test our results in both cases of unconstrained, and constrained fair data generation. In the unconstrained case, i.e. when the model is only trained in the first phase and is only meant to generate accurate data following the same joint probability distribution of the real data, the results show that the model beats state-of-the-art GANs proposed in the literature to produce synthetic tabular data. Also, in the constrained case in which the first phase of training is followed by the second phase, we train the network and test it on four datasets studied in the fairness literature and compare our results with another state-of-the-art pre-processing method, and present the promising results that it achieves. Comparing to other studies utilizing GANs for fair data generation, our model is comparably more stable by using only one critic, and also by avoiding major problems of original GAN model, such as mode-dropping and non-convergence, by implementing a Wasserstein GAN.
Abstract（参考訳）: 自動意思決定への依存が高まるにつれて、アルゴリズム的公平性の問題の重要性が高まっている。本稿では,表データ生成のための生成型adversarial networkを提案する。モデルは2段階のトレーニングを含む。第1フェーズでは、モデルがトレーニングされ、参照データセットに似た合成データを正確に生成する。第2フェーズでは、フェアネス制約を加えるために値関数を変更し、正確かつ公正なデータを生成するためにネットワークをトレーニングし続けます。私たちは、制約のない、公平なデータ生成の両方のケースで結果をテストします。拘束されていない場合、すなわち、このモデルが第1フェーズでのみ訓練され、実データの同一の確率分布に追従して正確なデータを生成することを意図した場合には、文献に提示された最先端のganを上回って合成表データを生成する。また、トレーニングの第1フェーズと第2フェーズが続く制約された場合、ネットワークをトレーニングし、フェアネス文献で研究した4つのデータセット上でテストし、その結果を他の最先端の事前処理手法と比較し、その実現に期待できる結果を示す。公平なデータ生成にGANを利用する他の研究と比較して、我々のモデルは1つの批評家のみを用いることで、また、Wasserstein GANを実装することで、モードドロップや非収束といった元のGANモデルの大きな問題を回避することで、より安定している。

関連論文リスト

Assessing Generative Models for Structured Data [0.0]
本稿では,データ内のカラム間依存関係を調べることで,実データに対して合成データを評価するための厳密な手法を提案する。大規模言語モデル (GPT-2) は,数発のプロンプトによってクエリされた場合と微調整された場合の両方で,GAN (CTGAN) モデルは元の実データに類似した依存関係を持つデータを生成しないことがわかった。
論文参考訳（メタデータ） (2025-03-26T18:19:05Z)
AIM-Fair: Advancing Algorithmic Fairness via Selectively Fine-Tuning Biased Models with Contextual Synthetic Data [44.94133254226272]
既存の手法は、しばしば合成データの多様性と品質の限界に直面し、公正さと全体的なモデル精度を損なう。本稿では,AIM-Fairを提案する。AIM-Fairは,これらの制限を克服し,アルゴリズムの公正性を促進するための最先端生成モデルの可能性を活用することを目的としている。 CelebAとUTKFaceデータセットの実験から、AIM-Fairは実用性を維持しながらモデルフェアネスを改善し、完全かつ部分的に調整されたモデルフェアネスのアプローチよりも優れています。
論文参考訳（メタデータ） (2025-03-07T18:26:48Z)
A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文参考訳（メタデータ） (2025-02-26T06:18:13Z)
Marginal Causal Flows for Validation and Inference [3.547529079746247]
複雑なデータから得られる結果に対する介入の限界因果効果を調べることは依然として困難である。 Frugal Flowsは、正規化フローを使用してデータ生成過程を柔軟に学習する新しい確率ベース機械学習モデルである。シミュレーションと実世界の両方のデータセットで実験を行った。
論文参考訳（メタデータ） (2024-11-02T16:04:57Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
FLIGAN: Enhancing Federated Learning with Incomplete Data using GAN [1.5749416770494706]
Federated Learning (FL)は、ネットワークデバイス上での機械学習モデルの分散トレーニングのためのプライバシ保護メカニズムを提供する。本稿では,FLにおけるデータ不完全性問題に対処する新しいアプローチであるFLIGANを提案する。本手法はFLのプライバシ要件に則り,プロセス内の実際のデータを共有せずに合成データをフェデレートした方法で生成する。
論文参考訳（メタデータ） (2024-03-25T16:49:38Z)
Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文参考訳（メタデータ） (2024-02-19T02:08:09Z)
Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文参考訳（メタデータ） (2023-10-25T17:59:12Z)
On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文参考訳（メタデータ） (2023-09-30T16:41:04Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文参考訳（メタデータ） (2022-10-24T08:13:47Z)
DECAF: Generating Fair Synthetic Data Using Causally-Aware Generative Networks [71.6879432974126]
本稿では,GANに基づく表型データのための公正な合成データ生成装置であるDECAFを紹介する。 DeCAFは望ましくないバイアスを除去し,高品質な合成データを生成可能であることを示す。下流モデルの収束と公平性に関する理論的保証を提供する。
論文参考訳（メタデータ） (2021-10-25T12:39:56Z)
Transitioning from Real to Synthetic data: Quantifying the bias in model [1.6134566438137665]
本研究では,合成データを用いたモデルにおけるバイアスと公平性のトレードオフを確立することを目的とする。合成データを用いて訓練したモデルには、様々なレベルのバイアスの影響があることを実証する。
論文参考訳（メタデータ） (2021-05-10T06:57:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。