論文の概要: FairTabGen: Unifying Counterfactual and Causal Fairness in Synthetic Tabular Data Generation
- arxiv url: http://arxiv.org/abs/2508.11810v1
- Date: Fri, 15 Aug 2025 21:36:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.386827
- Title: FairTabGen: Unifying Counterfactual and Causal Fairness in Synthetic Tabular Data Generation
- Title(参考訳): FairTabGen: 合成語彙データ生成における対実的・因果フェアネスの統合
- Authors: Nitish Nagesh, Salar Shakibhamedan, Mahdi Bagheri, Ziyu Wang, Nima TaheriNejad, Axel Jantsch, Amir M. Rahmani,
- Abstract要約: 合成データ生成のためのフェアネス対応大規模言語モデルベースフレームワークであるFairTabGenを提案する。
我々は、公正さとユーティリティのバランスをとるために、文脈内学習、即時改善、公正さを意識したデータキュレーションを使用します。
- 参考スコア(独自算出の注目度): 4.044506553590468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating synthetic data is crucial in privacy-sensitive, data-scarce settings, especially for tabular datasets widely used in real-world applications. A key challenge is improving counterfactual and causal fairness, while preserving high utility. We present FairTabGen, a fairness-aware large language model-based framework for tabular synthetic data generation. We integrate multiple fairness definitions including counterfactual and causal fairness into both its generation and evaluation pipelines. We use in-context learning, prompt refinement, and fairness-aware data curation to balance fairness and utility. Across diverse datasets, our method outperforms state-of-the-art GAN-based and LLM-based methods, achieving up to 10% improvements on fairness metrics such as demographic parity and path-specific causal effects while retaining statistical utility. Remarkably, it achieves these gains using less than 20% of the original data, highlighting its efficiency in low-data regimes. These results demonstrate a principled and practical approach for generating fair and useful synthetic tabular data.
- Abstract(参考訳): 合成データの生成は、特に現実世界のアプリケーションで広く使用されている表データセットにおいて、プライバシに敏感なデータスカース設定において不可欠である。
重要な課題は、高い実用性を維持しながら、反ファクトや因果フェアネスを改善することである。
グラフ合成データ生成のためのフェアネス対応大規模言語モデルベースフレームワークであるFairTabGenを提案する。
我々は、その生成と評価の両方に、反ファクトおよび因果フェアネスを含む複数のフェアネス定義を統合する。
我々は、公正さとユーティリティのバランスをとるために、文脈内学習、即時改善、公正さを意識したデータキュレーションを使用します。
本手法は,多種多様なデータセットにまたがって,最先端のGAN法およびLCM法よりも優れており,統計的有用性を保ちながら,人口パーティやパス固有の因果効果などの公正度指標を最大10%改善する。
注目すべきは、オリジナルのデータの20%未満を使用してこれらの利益を達成し、低データのレシエーションにおける効率性を強調していることだ。
これらの結果は、公正で有用な合成表データを生成するための原則的で実践的なアプローチを示している。
関連論文リスト
- FairCauseSyn: Towards Causally Fair LLM-Augmented Synthetic Data Generation [4.392938909804638]
合成データ生成は、生成モデルを用いて実世界のデータに基づいてデータを生成する。
実世界の健康データを用いて因果フェアネスを高めるために,初めてLLMを付加した合成データ生成法を開発した。
因果的公正予測器で訓練すると、合成データは実際のデータと比較して感度属性のバイアスを70%削減する。
論文 参考訳(メタデータ) (2025-06-23T19:59:26Z) - LLM-TabLogic: Preserving Inter-Column Logical Relationships in Synthetic Tabular Data via Prompt-Guided Latent Diffusion [49.898152180805454]
合成データセットはドメイン固有の論理的一貫性を維持する必要がある。
既存の生成モデルは、しばしばこれらのカラム間の関係を見落としている。
本研究では,ドメイン知識を必要とせずに列間関係を効果的に維持する手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - Can Synthetic Data be Fair and Private? A Comparative Study of Synthetic Data Generation and Fairness Algorithms [2.144088660722956]
Debiasing CAusal Fairness (DECAF)アルゴリズムは、プライバシとフェアネスの最良のバランスを実現する。
合成データに事前処理の公正性アルゴリズムを適用することで、実際のデータに適用した場合よりも公平性が向上する。
論文 参考訳(メタデータ) (2025-01-03T12:35:58Z) - Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Generating Synthetic Fair Syntax-agnostic Data by Learning and Distilling Fair Representation [4.1942958779358674]
既存のバイアス緩和生成法は、公平性目標を処理し、計算オーバーヘッドを考慮するのに失敗する。
我々は知識蒸留に基づく公正なデータ生成手法を提案し、そこでは小さなアーキテクチャを用いて潜在空間における公正な表現を蒸留する。
提案手法は, 最先端の公正生成モデルに比べて, フェアネス, 合成試料品質およびデータ有用性において, 5%, 5%, 10%の上昇を示した。
論文 参考訳(メタデータ) (2024-08-20T11:37:52Z) - A Correlation- and Mean-Aware Loss Function and Benchmarking Framework to Improve GAN-based Tabular Data Synthesis [2.2451409468083114]
本稿では,GAN(Generative Adversarial Network)のための新しい相関と平均認識損失関数を提案する。
提案した損失関数は、真のデータ分布をキャプチャする既存の手法よりも統計的に有意な改善を示す。
ベンチマークフレームワークは、強化された合成データ品質により、下流の機械学習タスクのパフォーマンスが向上することを示している。
論文 参考訳(メタデータ) (2024-05-27T09:08:08Z) - ChatGPT Based Data Augmentation for Improved Parameter-Efficient Debiasing of LLMs [65.9625653425636]
大型言語モデル(LLM)は有害な社会的バイアスを示す。
そこで本研究では,ChatGPTを用いて合成学習データを生成する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T01:28:48Z) - Fair Active Learning in Low-Data Regimes [22.349886628823125]
機械学習の応用においては、社会的不平等の持続を避けるために公正性の確保が不可欠である。
本研究では,データスカース環境におけるバイアスの低減と精度向上という課題に対処する。
本稿では,後方サンプリングにインスパイアされた探索手法と,公平な分類サブルーチンを組み合わせた,革新的なアクティブラーニングフレームワークを提案する。
この枠組みは,確率の高い公正制約を満足しつつ,精度を最大化しながら,非常にデータ量の多い状況下で効果的に機能することが実証された。
論文 参考訳(メタデータ) (2023-12-13T23:14:55Z) - DECAF: Generating Fair Synthetic Data Using Causally-Aware Generative
Networks [71.6879432974126]
本稿では,GANに基づく表型データのための公正な合成データ生成装置であるDECAFを紹介する。
DeCAFは望ましくないバイアスを除去し,高品質な合成データを生成可能であることを示す。
下流モデルの収束と公平性に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2021-10-25T12:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。