論文の概要: Balanced Mixed-Type Tabular Data Synthesis with Diffusion Models
- arxiv url: http://arxiv.org/abs/2404.08254v1
- Date: Fri, 12 Apr 2024 06:08:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 15:55:31.055823
- Title: Balanced Mixed-Type Tabular Data Synthesis with Diffusion Models
- Title(参考訳): 拡散モデルを用いた平衡混合型タブラルデータ合成
- Authors: Zeyu Yang, Peikun Guo, Khadija Zanna, Akane Sano,
- Abstract要約: 感性特性のバランスデータを生成するために, 公平な拡散モデルを導入する。
本研究では,本手法が学習データにおけるクラス不均衡を効果的に軽減することを示す実証的証拠を示す。
- 参考スコア(独自算出の注目度): 4.624729755957781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have emerged as a robust framework for various generative tasks, such as image and audio synthesis, and have also demonstrated a remarkable ability to generate mixed-type tabular data comprising both continuous and discrete variables. However, current approaches to training diffusion models on mixed-type tabular data tend to inherit the imbalanced distributions of features present in the training dataset, which can result in biased sampling. In this research, we introduce a fair diffusion model designed to generate balanced data on sensitive attributes. We present empirical evidence demonstrating that our method effectively mitigates the class imbalance in training data while maintaining the quality of the generated samples. Furthermore, we provide evidence that our approach outperforms existing methods for synthesizing tabular data in terms of performance and fairness.
- Abstract(参考訳): 拡散モデルは、画像や音声合成などの様々な生成タスクのための堅牢なフレームワークとして登場し、連続変数と離散変数の両方からなる混合型表データを生成する顕著な能力を示した。
しかしながら、混合型表型データ上での拡散モデルをトレーニングするための現在のアプローチは、トレーニングデータセットに存在する機能の不均衡分布を継承する傾向にあり、バイアスサンプリングが発生する。
本研究では, 感度特性のバランスデータを生成するために, 公平な拡散モデルを提案する。
本研究では,本手法が学習データにおけるクラス不均衡を効果的に軽減し,生成したサンプルの品質を維持できることを示す実証的証拠を示す。
さらに,本手法は,従来の表データの合成手法よりも性能と公平性に優れていたことを示す。
関連論文リスト
- Theoretical Insights for Diffusion Guidance: A Case Study for Gaussian
Mixture Models [59.331993845831946]
拡散モデルは、所望の特性に向けてサンプル生成を操るために、スコア関数にタスク固有の情報を注入することの恩恵を受ける。
本稿では,ガウス混合モデルの文脈における拡散モデルに対する誘導の影響を理解するための最初の理論的研究を提供する。
論文 参考訳(メタデータ) (2024-03-03T23:15:48Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Fair Sampling in Diffusion Models through Switching Mechanism [4.990206466948269]
本研究では,拡散モデルに対するテクスタトリビュートスイッチング機構という,公平性を考慮したサンプリング手法を提案する。
提案手法の有効性を2つの重要な側面から数学的に証明し,実験的に実証する。
論文 参考訳(メタデータ) (2024-01-06T06:55:26Z) - Continuous Diffusion for Mixed-Type Tabular Data [3.146069168382982]
本稿では,スコアマッチングとスコア決定を組み合わせることで,共通タイプの連続雑音分布を確保する。
また,特徴やデータタイプ毎に異なるノイズスケジュールの影響についても検討する。
その結果、我々のモデルは最先端のベンチマークモデルより一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T12:21:03Z) - On the Limitation of Diffusion Models for Synthesizing Training Datasets [5.384630221560811]
本稿では, 実試料から再構成した合成試料を拡散・逆過程により解析することにより, 合成試料と実試料とのギャップを解明する。
その結果, 合成データセットは, 最先端拡散モデルを用いても, 実際のデータセットの分類性能を低下させることがわかった。
論文 参考訳(メタデータ) (2023-11-22T01:42:23Z) - MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。
まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。
提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文 参考訳(メタデータ) (2023-07-02T03:49:47Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z) - Class-Balancing Diffusion Models [57.38599989220613]
クラスバランシング拡散モデル(CBDM)は、分散調整正規化器をソリューションとして訓練する。
提案手法は,CIFAR100/CIFAR100LTデータセットで生成結果をベンチマークし,下流認識タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-30T20:00:14Z) - Diffusing Gaussian Mixtures for Generating Categorical Data [21.43283907118157]
本稿では,高品質なサンプル生成に着目した拡散モデルに基づく分類データの生成モデルを提案する。
評価手法は、分類データを生成するための異なる生成モデルの能力と限界を強調した。
論文 参考訳(メタデータ) (2023-03-08T14:55:32Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。