論文の概要: TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation
- arxiv url: http://arxiv.org/abs/2410.20626v2
- Date: Tue, 29 Oct 2024 17:19:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:40:00.164618
- Title: TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation
- Title(参考訳): TabDiff: タブラルデータ生成のための多モード拡散モデル
- Authors: Juntong Shi, Minkai Xu, Harper Hua, Hengrui Zhang, Stefano Ermon, Jure Leskovec,
- Abstract要約: 1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
- 参考スコア(独自算出の注目度): 91.50296404732902
- License:
- Abstract: Synthesizing high-quality tabular data is an important topic in many data science tasks, ranging from dataset augmentation to privacy protection. However, developing expressive generative models for tabular data is challenging due to its inherent heterogeneous data types, complex inter-correlations, and intricate column-wise distributions. In this paper, we introduce TabDiff, a joint diffusion framework that models all multi-modal distributions of tabular data in one model. Our key innovation is the development of a joint continuous-time diffusion process for numerical and categorical data, where we propose feature-wise learnable diffusion processes to counter the high disparity of different feature distributions. TabDiff is parameterized by a transformer handling different input types, and the entire framework can be efficiently optimized in an end-to-end fashion. We further introduce a multi-modal stochastic sampler to automatically correct the accumulated decoding error during sampling, and propose classifier-free guidance for conditional missing column value imputation. Comprehensive experiments on seven datasets demonstrate that TabDiff achieves superior average performance over existing competitive baselines across all eight metrics, with up to $22.5\%$ improvement over the state-of-the-art model on pair-wise column correlation estimations. Code is available at https://github.com/MinkaiXu/TabDiff.
- Abstract(参考訳): 高品質な表データの合成は、データセットの強化からプライバシ保護まで、多くのデータサイエンスタスクにおいて重要なトピックである。
しかし、表型データに対する表現的生成モデルの開発は、その固有な異種データ型、複雑な相互相関、複雑な列ワイズ分布のために困難である。
本稿では,1つのモデルにおける表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値的および分類的データのための連立連続時間拡散プロセスの開発であり、異なる特徴分布の高格差に対応するために、機能的に学習可能な拡散プロセスを提案する。
TabDiffは、異なる入力タイプを扱うトランスフォーマーによってパラメータ化され、フレームワーク全体をエンドツーエンドで効率的に最適化することができる。
さらに,サンプリング中に蓄積したデコードエラーを自動的に補正するマルチモーダル確率型サンプリング器を導入し,条件付きカラム値計算のための分類子フリーガイダンスを提案する。
7つのデータセットに関する総合的な実験により、TabDiffは8つのメトリクスすべてにわたる既存の競争ベースラインよりも優れた平均性能を達成し、ペアワイド列相関推定における最先端モデルよりも最大22.5\%のコストで改善されていることが示されている。
コードはhttps://github.com/MinkaiXu/TabDiff.comで入手できる。
関連論文リスト
- Diffusion-nested Auto-Regressive Synthesis of Heterogeneous Tabular Data [56.48119008663155]
本稿では,これらの問題に対処する拡散型自己回帰モデル(TabDAR)を提案する。
異なる特性を持つ10のデータセットに対して広範な実験を行い、提案したTabDARは3つの異なる側面にわたる8つの指標に対して、従来の最先端手法を18%から45%上回っている。
論文 参考訳(メタデータ) (2024-10-28T20:49:26Z) - ClavaDDPM: Multi-relational Data Synthesis with Cluster-guided Diffusion Models [4.725559485781692]
マルチリレーショナル(マルチテーブル)データを合成するための新しいアプローチであるClavaDDPMを紹介する。
ClavaDDPMはクラスタリングラベルを仲介として、特に外部キー制約に焦点を当てたテーブル間の関係をモデル化する。
ClavaDDPMは、これらの長距離依存に対する既存のメソッドよりも優れており、シングルテーブルデータに対するユーティリティメトリクスに競争力があることを示す。
論文 参考訳(メタデータ) (2024-05-28T00:42:18Z) - An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。
本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。
我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文 参考訳(メタデータ) (2024-04-12T12:31:06Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - FedTabDiff: Federated Learning of Diffusion Probabilistic Models for
Synthetic Mixed-Type Tabular Data Generation [5.824064631226058]
textitFederated Tabular Diffusion (FedTabDiff) を導入し、元のデータセットに一元的にアクセスすることなく、高忠実な混合型表型データを生成する。
FedTabDiffは、データプライバシとローカリティを尊重しながら、複数のエンティティが共同で生成モデルをトレーニングできるようにする分散学習方式を実現する。
実世界の金融および医療データセットに関する実験的評価は、高い忠実性、ユーティリティ、プライバシ、カバレッジを維持する合成データを生成するフレームワークの能力を実証している。
論文 参考訳(メタデータ) (2024-01-11T21:17:50Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Mixed-Type Tabular Data Synthesis with Score-based Diffusion in Latent Space [37.78498089632884]
本稿では,変分オートエンコーダ(VAE)の潜在空間内での拡散モデルを利用して,表層データを合成する手法であるTabsynを紹介する。
提案したTabsynの主な利点は,(1)単一統一空間に変換してカラム間関係を明示的に捉えることによって,データ型を広い範囲で扱えること,(2)品質:拡散モデルのその後のトレーニングを強化するために潜伏埋め込みの分布を最適化すること,(3)速度:既存の拡散モデルよりもはるかに少ないリバースステップと高速な合成速度を実現すること,である。
論文 参考訳(メタデータ) (2023-10-14T19:59:03Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion
Models [54.1843419649895]
拡散確率モデル(DDPM)に基づく解を提案する。
他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。
提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
論文 参考訳(メタデータ) (2022-12-01T18:59:55Z) - TabDDPM: Modelling Tabular Data with Diffusion Models [33.202222842342465]
TabDDPM -- どんなデータセットにも普遍的に適用でき、どんなタイプの機能でも扱える拡散モデルです。
我々は,TabDDPMを広範囲のベンチマークで評価し,既存のGAN/VAE代替よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T12:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。