論文の概要: FairCauseSyn: Towards Causally Fair LLM-Augmented Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2506.19082v1
- Date: Mon, 23 Jun 2025 19:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.366882
- Title: FairCauseSyn: Towards Causally Fair LLM-Augmented Synthetic Data Generation
- Title(参考訳): FairCauseSyn:Causally Fair LLM-Augmented Synthetic Data Generationを目指して
- Authors: Nitish Nagesh, Ziyu Wang, Amir M. Rahmani,
- Abstract要約: 合成データ生成は、生成モデルを用いて実世界のデータに基づいてデータを生成する。
実世界の健康データを用いて因果フェアネスを高めるために,初めてLLMを付加した合成データ生成法を開発した。
因果的公正予測器で訓練すると、合成データは実際のデータと比較して感度属性のバイアスを70%削減する。
- 参考スコア(独自算出の注目度): 4.392938909804638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data generation creates data based on real-world data using generative models. In health applications, generating high-quality data while maintaining fairness for sensitive attributes is essential for equitable outcomes. Existing GAN-based and LLM-based methods focus on counterfactual fairness and are primarily applied in finance and legal domains. Causal fairness provides a more comprehensive evaluation framework by preserving causal structure, but current synthetic data generation methods do not address it in health settings. To fill this gap, we develop the first LLM-augmented synthetic data generation method to enhance causal fairness using real-world tabular health data. Our generated data deviates by less than 10% from real data on causal fairness metrics. When trained on causally fair predictors, synthetic data reduces bias on the sensitive attribute by 70% compared to real data. This work improves access to fair synthetic data, supporting equitable health research and healthcare delivery.
- Abstract(参考訳): 合成データ生成は、生成モデルを用いて実世界のデータに基づいてデータを生成する。
健康分野では、適切な結果を得るためには、感度特性の公平性を保ちながら高品質なデータを生成することが不可欠である。
既存の GAN および LLM ベースの手法は, 対実的公正性に重点を置いており, 主に財務・法分野に適用されている。
因果的公正性は因果的構造を保存することによってより包括的な評価フレームワークを提供するが、現在の合成データ生成方法は健康設定ではそれに対応しない。
このギャップを埋めるために、実世界の表型健康データを用いて因果フェアネスを高めるために、最初のLCM拡張合成データ生成法を開発した。
生成したデータは、因果的公正度測定の実際のデータから10%以下までずれます。
因果的公正予測器で訓練すると、合成データは実際のデータと比較して感度属性のバイアスを70%削減する。
この研究は、公正な合成データへのアクセスを改善し、公平な健康研究と医療提供を支援する。
関連論文リスト
- AIM-Fair: Advancing Algorithmic Fairness via Selectively Fine-Tuning Biased Models with Contextual Synthetic Data [44.94133254226272]
既存の手法は、しばしば合成データの多様性と品質の限界に直面し、公正さと全体的なモデル精度を損なう。
本稿では,AIM-Fairを提案する。AIM-Fairは,これらの制限を克服し,アルゴリズムの公正性を促進するための最先端生成モデルの可能性を活用することを目的としている。
CelebAとUTKFaceデータセットの実験から、AIM-Fairは実用性を維持しながらモデルフェアネスを改善し、完全かつ部分的に調整されたモデルフェアネスのアプローチよりも優れています。
論文 参考訳(メタデータ) (2025-03-07T18:26:48Z) - Can Synthetic Data be Fair and Private? A Comparative Study of Synthetic Data Generation and Fairness Algorithms [2.144088660722956]
Debiasing CAusal Fairness (DECAF)アルゴリズムは、プライバシとフェアネスの最良のバランスを実現する。
合成データに事前処理の公正性アルゴリズムを適用することで、実際のデータに適用した場合よりも公平性が向上する。
論文 参考訳(メタデータ) (2025-01-03T12:35:58Z) - Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。
具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。
また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T10:49:56Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Strong statistical parity through fair synthetic data [0.0]
本稿では,デザインによる公正さを具現化した合成データの作成について検討する。
このような合成データに基づいてトレーニングされた下流モデルは、すべての閾値にわたって公正な予測を提供する。
論文 参考訳(メタデータ) (2023-11-06T10:06:30Z) - Boosting Data Analytics With Synthetic Volume Expansion [3.568650932986342]
本稿では,合成データに対する統計的手法の有効性と,合成データのプライバシーリスクについて考察する。
この枠組みにおける重要な発見は、合成データに対する統計的手法の誤差率は、より多くの合成データを追加することで減少するが、最終的には上昇または安定化する可能性があることを明らかにする世代効果である。
論文 参考訳(メタデータ) (2023-10-27T01:57:27Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Downstream Fairness Caveats with Synthetic Healthcare Data [21.54509987309669]
プライバシ法は患者のプライバシーを守るためにElectronic Medical Records (EMR)のような健康データへのアクセスを制限する。
本稿では, 偏見を生かした医療データを総合的に評価し, フェアネス緩和技術が便益性に与える影響について検討する。
論文 参考訳(メタデータ) (2022-03-09T00:52:47Z) - DECAF: Generating Fair Synthetic Data Using Causally-Aware Generative
Networks [71.6879432974126]
本稿では,GANに基づく表型データのための公正な合成データ生成装置であるDECAFを紹介する。
DeCAFは望ましくないバイアスを除去し,高品質な合成データを生成可能であることを示す。
下流モデルの収束と公平性に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2021-10-25T12:39:56Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。