論文の概要: CausalDiffTab: Mixed-Type Causal-Aware Diffusion for Tabular Data Generation
- arxiv url: http://arxiv.org/abs/2506.14206v1
- Date: Tue, 17 Jun 2025 05:48:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.349326
- Title: CausalDiffTab: Mixed-Type Causal-Aware Diffusion for Tabular Data Generation
- Title(参考訳): CausalDiffTab: タブラルデータ生成のための混合型因果拡散
- Authors: Jia-Chen Zhang, Zheng Zhou, Yu-Jie Xiong, Chun-Ming Xia, Fei Dai,
- Abstract要約: 混合データを扱うために特別に設計された拡散モデルに基づく生成モデルCausalDiffTabを紹介する。
階層型先行核融合の原理に基づくハイブリッド適応因果正則化法を提案する。
7つのデータセットで実施された実験は、CausalDiffTabがすべてのメトリクスでベースラインメソッドを上回っていることを示している。
- 参考スコア(独自算出の注目度): 6.449839514410505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training data has been proven to be one of the most critical components in training generative AI. However, obtaining high-quality data remains challenging, with data privacy issues presenting a significant hurdle. To address the need for high-quality data. Synthesize data has emerged as a mainstream solution, demonstrating impressive performance in areas such as images, audio, and video. Generating mixed-type data, especially high-quality tabular data, still faces significant challenges. These primarily include its inherent heterogeneous data types, complex inter-variable relationships, and intricate column-wise distributions. In this paper, we introduce CausalDiffTab, a diffusion model-based generative model specifically designed to handle mixed tabular data containing both numerical and categorical features, while being more flexible in capturing complex interactions among variables. We further propose a hybrid adaptive causal regularization method based on the principle of Hierarchical Prior Fusion. This approach adaptively controls the weight of causal regularization, enhancing the model's performance without compromising its generative capabilities. Comprehensive experiments conducted on seven datasets demonstrate that CausalDiffTab outperforms baseline methods across all metrics. Our code is publicly available at: https://github.com/Godz-z/CausalDiffTab.
- Abstract(参考訳): トレーニングデータは、生成AIのトレーニングにおいて最も重要なコンポーネントの1つであることが証明されている。
しかし、高品質なデータを取得することは依然として困難であり、データプライバシーの問題が大きなハードルとなっている。
高品質なデータの必要性に対処する。
合成データは主流のソリューションとして登場し、画像、オーディオ、ビデオなどの領域で素晴らしいパフォーマンスを誇示している。
混合型データ、特に高品質な表データの生成は、依然として大きな課題に直面している。
これらは、本質的に不均一なデータ型、複雑な相互変数関係、複雑なカラムワイズ分布を含む。
本稿では,拡散モデルに基づくデータ生成モデルCausalDiffTabについて述べる。
さらに,階層型先行核融合の原理に基づくハイブリッド適応因果正則化法を提案する。
このアプローチは因果正則化の重みを適応的に制御し、生成能力を損なうことなくモデルの性能を向上させる。
7つのデータセットで実施された総合的な実験は、CausalDiffTabがすべてのメトリクスでベースラインメソッドを上回っていることを示している。
私たちのコードは、https://github.com/Godz-z/CausalDiffTab.comで公開されています。
関連論文リスト
- RelDiff: Relational Data Generative Modeling with Graph-Based Diffusion Models [83.6013616017646]
RelDiffは、外部キーグラフ構造を明示的にモデル化することによって完全な関係データベースを合成する新しい拡散生成モデルである。
RelDiffは、現実的で一貫性のある合成リレーショナルデータベースの作成において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-05-31T21:01:02Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - TabEBM: A Tabular Data Augmentation Method with Distinct Class-Specific Energy-Based Models [10.88959673845634]
TabEBMはEnergy-Based Models (EBMs)を用いたクラス条件生成法である
実験の結果,TabEBMは既存の手法よりも高品質で統計的忠実度の高い合成データを生成することがわかった。
論文 参考訳(メタデータ) (2024-09-24T14:25:59Z) - Fake It Till Make It: Federated Learning with Consensus-Oriented
Generation [52.82176415223988]
コンセンサス指向生成による連合学習(FedCOG)を提案する。
FedCOGは、補完的なデータ生成と知識蒸留に基づくモデルトレーニングという、クライアント側の2つの重要なコンポーネントで構成されています。
古典的および実世界のFLデータセットの実験は、FedCOGが一貫して最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2023-12-10T18:49:59Z) - Generating tabular datasets under differential privacy [0.0]
ディープニューラルネットワークのトレーニングプロセスに差分プライバシー(DP)を導入する。
これにより、結果データの品質とプライバシの間にトレードオフが生じます。
我々は、注意機構を活用する新しいエンドツーエンドモデルを実装している。
論文 参考訳(メタデータ) (2023-08-28T16:35:43Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。