論文の概要: TABFAIRGDT: A Fast Fair Tabular Data Generator using Autoregressive Decision Trees
- arxiv url: http://arxiv.org/abs/2509.19927v1
- Date: Wed, 24 Sep 2025 09:35:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.75736
- Title: TABFAIRGDT: A Fast Fair Tabular Data Generator using Autoregressive Decision Trees
- Title(参考訳): TABFAIRGDT:自己回帰決定木を用いた高速フェアタブラルデータジェネレータ
- Authors: Emmanouil Panagiotou, Benoît Ronval, Arjun Roy, Ludwig Bothmann, Bernd Bischl, Siegfried Nijssen, Eirini Ntoutsi,
- Abstract要約: 本稿では,自己回帰決定木を用いた公正な合成データ生成手法であるTABFAIRGDTを紹介する。
ベンチマークフェアネスデータセット上でTABFAIRGDTを評価し,SOTA(State-of-the-art)深部生成モデルよりも優れていることを示す。
注目すべきなのは、TABFAIRGDTは、さまざまなデータセットサイズで、最速のSOTAベースラインよりも平均72%のスピードアップを実現していることだ。
- 参考スコア(独自算出の注目度): 11.0044761900691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring fairness in machine learning remains a significant challenge, as models often inherit biases from their training data. Generative models have recently emerged as a promising approach to mitigate bias at the data level while preserving utility. However, many rely on deep architectures, despite evidence that simpler models can be highly effective for tabular data. In this work, we introduce TABFAIRGDT, a novel method for generating fair synthetic tabular data using autoregressive decision trees. To enforce fairness, we propose a soft leaf resampling technique that adjusts decision tree outputs to reduce bias while preserving predictive performance. Our approach is non-parametric, effectively capturing complex relationships between mixed feature types, without relying on assumptions about the underlying data distributions. We evaluate TABFAIRGDT on benchmark fairness datasets and demonstrate that it outperforms state-of-the-art (SOTA) deep generative models, achieving better fairness-utility trade-off for downstream tasks, as well as higher synthetic data quality. Moreover, our method is lightweight, highly efficient, and CPU-compatible, requiring no data pre-processing. Remarkably, TABFAIRGDT achieves a 72% average speedup over the fastest SOTA baseline across various dataset sizes, and can generate fair synthetic data for medium-sized datasets (10 features, 10K samples) in just one second on a standard CPU, making it an ideal solution for real-world fairness-sensitive applications.
- Abstract(参考訳): 機械学習における公平性を保証することは、モデルがトレーニングデータからバイアスを継承することが多いため、依然として大きな課題である。
生成モデルは、ユーティリティを保ちながら、データレベルでバイアスを軽減するための有望なアプローチとして最近登場した。
しかし、多くの人は、単純なモデルが表データに対して非常に効果的であるという証拠にもかかわらず、深いアーキテクチャに依存している。
本研究では,自動回帰決定木を用いた公正な合成表データ生成手法であるTABFAIRGDTを紹介する。
公平性を確保するため,予測性能を維持しつつ,決定木出力を調整し,バイアスを低減するソフトリーフ再サンプリング手法を提案する。
我々のアプローチは非パラメトリックであり、基礎となるデータ分布に関する仮定に頼ることなく、混合特徴型間の複雑な関係を効果的に捉える。
我々は、ベンチマークフェアネスデータセット上でTABFAIRGDTを評価し、最新のSOTA(deep-of-the-art)生成モデルよりも優れ、下流タスクに対するフェアネス・ユーティリティのトレードオフが向上し、合成データ品質が向上することを示した。
さらに,本手法は軽量で高効率でCPU互換であり,データ前処理は不要である。
注目すべきなのは、TABFAIRGDTは、さまざまなデータセットサイズにわたる最速のSOTAベースラインよりも平均72%のスピードアップを実現し、標準的なCPU上で1秒で、中規模のデータセット(10つの特徴、10Kサンプル)の公正な合成データを生成することができ、現実の公平性に敏感なアプリケーションに理想的なソリューションとなることだ。
関連論文リスト
- Efficient Long-Tail Learning in Latent Space by sampling Synthetic Data [1.9290392443571385]
不均衡な分類データセットは、機械学習に重大な課題をもたらす。
本稿では,視覚基礎モデルのリッチなセマンティック潜在空間を利用して合成データを生成し,単純な線形分類器を訓練する新しいフレームワークを提案する。
提案手法は,CIFAR-100-LTベンチマークの最先端性を新たに設定し,Places-LTベンチマークで高い性能を示す。
論文 参考訳(メタデータ) (2025-09-19T10:52:31Z) - FairTabGen: Unifying Counterfactual and Causal Fairness in Synthetic Tabular Data Generation [4.044506553590468]
合成データ生成のためのフェアネス対応大規模言語モデルベースフレームワークであるFairTabGenを提案する。
我々は、公正さとユーティリティのバランスをとるために、文脈内学習、即時改善、公正さを意識したデータキュレーションを使用します。
論文 参考訳(メタデータ) (2025-08-15T21:36:07Z) - Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Efficient Generative Modeling via Penalized Optimal Transport Network [1.8079016557290342]
本稿では,Wartherally-penalized Wasserstein (MPW) 距離に基づく多目的深部生成モデルを提案する。
MPW距離を通じて、POTNetは、低次元の辺縁情報を利用して、関節分布の全体的アライメントを導出する。
我々は,MPW損失の一般化誤差に基づく非漸近的境界を導出し,POTNetで学習した生成分布の収束率を確立する。
論文 参考訳(メタデータ) (2024-02-16T05:27:05Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - DECAF: Generating Fair Synthetic Data Using Causally-Aware Generative
Networks [71.6879432974126]
本稿では,GANに基づく表型データのための公正な合成データ生成装置であるDECAFを紹介する。
DeCAFは望ましくないバイアスを除去し,高品質な合成データを生成可能であることを示す。
下流モデルの収束と公平性に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2021-10-25T12:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。