論文の概要: TABFAIRGDT: A Fast Fair Tabular Data Generator using Autoregressive Decision Trees
- arxiv url: http://arxiv.org/abs/2509.19927v1
- Date: Wed, 24 Sep 2025 09:35:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.75736
- Title: TABFAIRGDT: A Fast Fair Tabular Data Generator using Autoregressive Decision Trees
- Title(参考訳): TABFAIRGDT:自己回帰決定木を用いた高速フェアタブラルデータジェネレータ
- Authors: Emmanouil Panagiotou, Benoît Ronval, Arjun Roy, Ludwig Bothmann, Bernd Bischl, Siegfried Nijssen, Eirini Ntoutsi,
- Abstract要約: 本稿では,自己回帰決定木を用いた公正な合成データ生成手法であるTABFAIRGDTを紹介する。
ベンチマークフェアネスデータセット上でTABFAIRGDTを評価し,SOTA(State-of-the-art)深部生成モデルよりも優れていることを示す。
注目すべきなのは、TABFAIRGDTは、さまざまなデータセットサイズで、最速のSOTAベースラインよりも平均72%のスピードアップを実現していることだ。
- 参考スコア(独自算出の注目度): 11.0044761900691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring fairness in machine learning remains a significant challenge, as models often inherit biases from their training data. Generative models have recently emerged as a promising approach to mitigate bias at the data level while preserving utility. However, many rely on deep architectures, despite evidence that simpler models can be highly effective for tabular data. In this work, we introduce TABFAIRGDT, a novel method for generating fair synthetic tabular data using autoregressive decision trees. To enforce fairness, we propose a soft leaf resampling technique that adjusts decision tree outputs to reduce bias while preserving predictive performance. Our approach is non-parametric, effectively capturing complex relationships between mixed feature types, without relying on assumptions about the underlying data distributions. We evaluate TABFAIRGDT on benchmark fairness datasets and demonstrate that it outperforms state-of-the-art (SOTA) deep generative models, achieving better fairness-utility trade-off for downstream tasks, as well as higher synthetic data quality. Moreover, our method is lightweight, highly efficient, and CPU-compatible, requiring no data pre-processing. Remarkably, TABFAIRGDT achieves a 72% average speedup over the fastest SOTA baseline across various dataset sizes, and can generate fair synthetic data for medium-sized datasets (10 features, 10K samples) in just one second on a standard CPU, making it an ideal solution for real-world fairness-sensitive applications.
- Abstract(参考訳): 機械学習における公平性を保証することは、モデルがトレーニングデータからバイアスを継承することが多いため、依然として大きな課題である。
生成モデルは、ユーティリティを保ちながら、データレベルでバイアスを軽減するための有望なアプローチとして最近登場した。
しかし、多くの人は、単純なモデルが表データに対して非常に効果的であるという証拠にもかかわらず、深いアーキテクチャに依存している。
本研究では,自動回帰決定木を用いた公正な合成表データ生成手法であるTABFAIRGDTを紹介する。
公平性を確保するため,予測性能を維持しつつ,決定木出力を調整し,バイアスを低減するソフトリーフ再サンプリング手法を提案する。
我々のアプローチは非パラメトリックであり、基礎となるデータ分布に関する仮定に頼ることなく、混合特徴型間の複雑な関係を効果的に捉える。
我々は、ベンチマークフェアネスデータセット上でTABFAIRGDTを評価し、最新のSOTA(deep-of-the-art)生成モデルよりも優れ、下流タスクに対するフェアネス・ユーティリティのトレードオフが向上し、合成データ品質が向上することを示した。
さらに,本手法は軽量で高効率でCPU互換であり,データ前処理は不要である。
注目すべきなのは、TABFAIRGDTは、さまざまなデータセットサイズにわたる最速のSOTAベースラインよりも平均72%のスピードアップを実現し、標準的なCPU上で1秒で、中規模のデータセット(10つの特徴、10Kサンプル)の公正な合成データを生成することができ、現実の公平性に敏感なアプリケーションに理想的なソリューションとなることだ。
関連論文リスト
- Efficient Long-Tail Learning in Latent Space by sampling Synthetic Data [1.9290392443571385]
不均衡な分類データセットは、機械学習に重大な課題をもたらす。
本稿では,視覚基礎モデルのリッチなセマンティック潜在空間を利用して合成データを生成し,単純な線形分類器を訓練する新しいフレームワークを提案する。
提案手法は,CIFAR-100-LTベンチマークの最先端性を新たに設定し,Places-LTベンチマークで高い性能を示す。
論文 参考訳(メタデータ) (2025-09-19T10:52:31Z) - FairTabGen: Unifying Counterfactual and Causal Fairness in Synthetic Tabular Data Generation [4.044506553590468]
合成データ生成のためのフェアネス対応大規模言語モデルベースフレームワークであるFairTabGenを提案する。
我々は、公正さとユーティリティのバランスをとるために、文脈内学習、即時改善、公正さを意識したデータキュレーションを使用します。
論文 参考訳(メタデータ) (2025-08-15T21:36:07Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - AIM-Fair: Advancing Algorithmic Fairness via Selectively Fine-Tuning Biased Models with Contextual Synthetic Data [44.94133254226272]
既存の手法は、しばしば合成データの多様性と品質の限界に直面し、公正さと全体的なモデル精度を損なう。
本稿では,AIM-Fairを提案する。AIM-Fairは,これらの制限を克服し,アルゴリズムの公正性を促進するための最先端生成モデルの可能性を活用することを目的としている。
CelebAとUTKFaceデータセットの実験から、AIM-Fairは実用性を維持しながらモデルフェアネスを改善し、完全かつ部分的に調整されたモデルフェアネスのアプローチよりも優れています。
論文 参考訳(メタデータ) (2025-03-07T18:26:48Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Efficient Generative Modeling via Penalized Optimal Transport Network [1.8079016557290342]
本稿では,Wartherally-penalized Wasserstein (MPW) 距離に基づく多目的深部生成モデルを提案する。
MPW距離を通じて、POTNetは、低次元の辺縁情報を利用して、関節分布の全体的アライメントを導出する。
我々は,MPW損失の一般化誤差に基づく非漸近的境界を導出し,POTNetで学習した生成分布の収束率を確立する。
論文 参考訳(メタデータ) (2024-02-16T05:27:05Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T08:13:47Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - DECAF: Generating Fair Synthetic Data Using Causally-Aware Generative
Networks [71.6879432974126]
本稿では,GANに基づく表型データのための公正な合成データ生成装置であるDECAFを紹介する。
DeCAFは望ましくないバイアスを除去し,高品質な合成データを生成可能であることを示す。
下流モデルの収束と公平性に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2021-10-25T12:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。