論文の概要: Balanced Mixed-Type Tabular Data Synthesis with Diffusion Models
- arxiv url: http://arxiv.org/abs/2404.08254v1
- Date: Fri, 12 Apr 2024 06:08:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 15:55:31.055823
- Title: Balanced Mixed-Type Tabular Data Synthesis with Diffusion Models
- Title(参考訳): 拡散モデルを用いた平衡混合型タブラルデータ合成
- Authors: Zeyu Yang, Peikun Guo, Khadija Zanna, Akane Sano,
- Abstract要約: 感性特性のバランスデータを生成するために, 公平な拡散モデルを導入する。
本研究では,本手法が学習データにおけるクラス不均衡を効果的に軽減することを示す実証的証拠を示す。
- 参考スコア(独自算出の注目度): 4.624729755957781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have emerged as a robust framework for various generative tasks, such as image and audio synthesis, and have also demonstrated a remarkable ability to generate mixed-type tabular data comprising both continuous and discrete variables. However, current approaches to training diffusion models on mixed-type tabular data tend to inherit the imbalanced distributions of features present in the training dataset, which can result in biased sampling. In this research, we introduce a fair diffusion model designed to generate balanced data on sensitive attributes. We present empirical evidence demonstrating that our method effectively mitigates the class imbalance in training data while maintaining the quality of the generated samples. Furthermore, we provide evidence that our approach outperforms existing methods for synthesizing tabular data in terms of performance and fairness.
- Abstract(参考訳): 拡散モデルは、画像や音声合成などの様々な生成タスクのための堅牢なフレームワークとして登場し、連続変数と離散変数の両方からなる混合型表データを生成する顕著な能力を示した。
しかしながら、混合型表型データ上での拡散モデルをトレーニングするための現在のアプローチは、トレーニングデータセットに存在する機能の不均衡分布を継承する傾向にあり、バイアスサンプリングが発生する。
本研究では, 感度特性のバランスデータを生成するために, 公平な拡散モデルを提案する。
本研究では,本手法が学習データにおけるクラス不均衡を効果的に軽減し,生成したサンプルの品質を維持できることを示す実証的証拠を示す。
さらに,本手法は,従来の表データの合成手法よりも性能と公平性に優れていたことを示す。
関連論文リスト
- TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Data Augmentation via Diffusion Model to Enhance AI Fairness [1.2979015577834876]
本稿では,AIフェアネスを改善するために合成データを生成する拡散モデルの可能性について検討する。
Tabular Denoising Diffusion Probabilistic Model (Tab-DDPM) を用いてデータ拡張を行った。
実験結果から,Tab-DDPMにより生成された合成データは,二項分類の公平性を向上させることが示された。
論文 参考訳(メタデータ) (2024-10-20T18:52:31Z) - Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。
所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - Theoretical Insights for Diffusion Guidance: A Case Study for Gaussian
Mixture Models [59.331993845831946]
拡散モデルは、所望の特性に向けてサンプル生成を操るために、スコア関数にタスク固有の情報を注入することの恩恵を受ける。
本稿では,ガウス混合モデルの文脈における拡散モデルに対する誘導の影響を理解するための最初の理論的研究を提供する。
論文 参考訳(メタデータ) (2024-03-03T23:15:48Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Fair Sampling in Diffusion Models through Switching Mechanism [5.560136885815622]
本研究では,拡散モデルに対するテクスタトリビュートスイッチング機構という,公平性を考慮したサンプリング手法を提案する。
提案手法の有効性を2つの重要な側面から数学的に証明し,実験的に実証する。
論文 参考訳(メタデータ) (2024-01-06T06:55:26Z) - Continuous Diffusion for Mixed-Type Tabular Data [2.7992435001846827]
混合型タブラリデータのための連続拡散モデルCDTDを提案する。
我々は、異なる適応的なノイズスケジュールを持つ混合型のデータに固有の高い不均一性に対処する。
実験の結果,CDTDは最先端のベンチマークモデルより一貫して優れていた。
論文 参考訳(メタデータ) (2023-12-16T12:21:03Z) - Combining propensity score methods with variational autoencoders for
generating synthetic data in presence of latent sub-groups [0.0]
ヘテロジニティは、例えば、サブグループラベルによって示されるように知られ、あるいは未知であり、双曲性や歪みのような分布の性質にのみ反映されるかもしれない。
本研究では,変分オートエンコーダ(VAE)から合成データを取得する際に,このような異種性をどのように保存し,制御するかを検討する。
論文 参考訳(メタデータ) (2023-12-12T22:49:24Z) - MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。
まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。
提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文 参考訳(メタデータ) (2023-07-02T03:49:47Z) - Class-Balancing Diffusion Models [57.38599989220613]
クラスバランシング拡散モデル(CBDM)は、分散調整正規化器をソリューションとして訓練する。
提案手法は,CIFAR100/CIFAR100LTデータセットで生成結果をベンチマークし,下流認識タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-30T20:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。