Fugu-MT 論文翻訳(概要): TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation

論文の概要: TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation

arxiv url: http://arxiv.org/abs/2410.20626v2
Date: Tue, 29 Oct 2024 17:19:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.077456
Title: TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation
Title（参考訳）: TabDiff: タブラルデータ生成のための多モード拡散モデル
Authors: Juntong Shi, Minkai Xu, Harper Hua, Hengrui Zhang, Stefano Ermon, Jure Leskovec,
Abstract要約: 1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。 TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
参考スコア（独自算出の注目度）: 91.50296404732902
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Synthesizing high-quality tabular data is an important topic in many data science tasks, ranging from dataset augmentation to privacy protection. However, developing expressive generative models for tabular data is challenging due to its inherent heterogeneous data types, complex inter-correlations, and intricate column-wise distributions. In this paper, we introduce TabDiff, a joint diffusion framework that models all multi-modal distributions of tabular data in one model. Our key innovation is the development of a joint continuous-time diffusion process for numerical and categorical data, where we propose feature-wise learnable diffusion processes to counter the high disparity of different feature distributions. TabDiff is parameterized by a transformer handling different input types, and the entire framework can be efficiently optimized in an end-to-end fashion. We further introduce a multi-modal stochastic sampler to automatically correct the accumulated decoding error during sampling, and propose classifier-free guidance for conditional missing column value imputation. Comprehensive experiments on seven datasets demonstrate that TabDiff achieves superior average performance over existing competitive baselines across all eight metrics, with up to $22.5\%$ improvement over the state-of-the-art model on pair-wise column correlation estimations. Code is available at https://github.com/MinkaiXu/TabDiff.
Abstract（参考訳）: 高品質な表データの合成は、データセットの強化からプライバシ保護まで、多くのデータサイエンスタスクにおいて重要なトピックである。しかし、表型データに対する表現的生成モデルの開発は、その固有な異種データ型、複雑な相互相関、複雑な列ワイズ分布のために困難である。本稿では,1つのモデルにおける表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。我々の重要な革新は、数値的および分類的データのための連立連続時間拡散プロセスの開発であり、異なる特徴分布の高格差に対応するために、機能的に学習可能な拡散プロセスを提案する。 TabDiffは、異なる入力タイプを扱うトランスフォーマーによってパラメータ化され、フレームワーク全体をエンドツーエンドで効率的に最適化することができる。さらに,サンプリング中に蓄積したデコードエラーを自動的に補正するマルチモーダル確率型サンプリング器を導入し,条件付きカラム値計算のための分類子フリーガイダンスを提案する。 7つのデータセットに関する総合的な実験により、TabDiffは8つのメトリクスすべてにわたる既存の競争ベースラインよりも優れた平均性能を達成し、ペアワイド列相関推定における最先端モデルよりも最大22.5\%のコストで改善されていることが示されている。コードはhttps://github.com/MinkaiXu/TabDiff.comで入手できる。

関連論文リスト

CausalDiffTab: Mixed-Type Causal-Aware Diffusion for Tabular Data Generation [6.449839514410505]
混合データを扱うために特別に設計された拡散モデルに基づく生成モデルCausalDiffTabを紹介する。階層型先行核融合の原理に基づくハイブリッド適応因果正則化法を提案する。 7つのデータセットで実施された実験は、CausalDiffTabがすべてのメトリクスでベースラインメソッドを上回っていることを示している。
論文参考訳（メタデータ） (2025-06-17T05:48:44Z)
RelDiff: Relational Data Generative Modeling with Graph-Based Diffusion Models [83.6013616017646]
RelDiffは、外部キーグラフ構造を明示的にモデル化することによって完全な関係データベースを合成する新しい拡散生成モデルである。 RelDiffは、現実的で一貫性のある合成リレーショナルデータベースの作成において、従来手法よりも一貫して優れている。
論文参考訳（メタデータ） (2025-05-31T21:01:02Z)
TabRep: Training Tabular Diffusion Models with a Simple and Effective Continuous Representation [16.907006955584343]
拡散モデルはデータ生成の主要な生成モデルである。統一された連続表現で訓練されたトレーニングアーキテクチャであるTabRepを紹介する。この結果から,TabRepは幅広い評価スイートにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-04-07T07:44:27Z)
Diffusion-nested Auto-Regressive Synthesis of Heterogeneous Tabular Data [56.48119008663155]
本稿では,これらの問題に対処する拡散型自己回帰モデル(TabDAR)を提案する。異なる特性を持つ10のデータセットに対して広範な実験を行い、提案したTabDARは3つの異なる側面にわたる8つの指標に対して、従来の最先端手法を18%から45%上回っている。
論文参考訳（メタデータ） (2024-10-28T20:49:26Z)
DiffPuter: Empowering Diffusion Models for Missing Data Imputation [56.48119008663155]
本稿ではDiffPuterについて紹介する。DiffPuterは、データ計算の欠如に対する期待最大化(EM)アルゴリズムと組み合わせた、カスタマイズされた拡散モデルである。我々の理論的解析は、DiffPuterのトレーニングステップがデータ密度の最大推定値に対応することを示している。 DiffPuterは,最も競争力のある既存手法と比較して,MAEが6.94%,RMSEが4.78%向上した。
論文参考訳（メタデータ） (2024-05-31T08:35:56Z)
ClavaDDPM: Multi-relational Data Synthesis with Cluster-guided Diffusion Models [4.725559485781692]
マルチリレーショナル(マルチテーブル)データを合成するための新しいアプローチであるClavaDDPMを紹介する。 ClavaDDPMはクラスタリングラベルを仲介として、特に外部キー制約に焦点を当てたテーブル間の関係をモデル化する。 ClavaDDPMは、これらの長距離依存に対する既存のメソッドよりも優れており、シングルテーブルデータに対するユーティリティメトリクスに競争力があることを示す。
論文参考訳（メタデータ） (2024-05-28T00:42:18Z)
ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models [65.82630283336051]
拡散生成モデルの既存のトレーニングスキームにより,次元と属性の組み合わせによって区切られた空間が十分に標本化されていないことを示す。構造を完全に活用するプロセスを構築し,ComboStocという名前でこの問題に対処する。
論文参考訳（メタデータ） (2024-05-22T15:23:10Z)
An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文参考訳（メタデータ） (2024-04-12T12:31:06Z)
Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。 DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文参考訳（メタデータ） (2024-03-11T14:07:53Z)
FedTabDiff: Federated Learning of Diffusion Probabilistic Models for Synthetic Mixed-Type Tabular Data Generation [5.824064631226058]
textitFederated Tabular Diffusion (FedTabDiff) を導入し、元のデータセットに一元的にアクセスすることなく、高忠実な混合型表型データを生成する。 FedTabDiffは、データプライバシとローカリティを尊重しながら、複数のエンティティが共同で生成モデルをトレーニングできるようにする分散学習方式を実現する。実世界の金融および医療データセットに関する実験的評価は、高い忠実性、ユーティリティ、プライバシ、カバレッジを維持する合成データを生成するフレームワークの能力を実証している。
論文参考訳（メタデータ） (2024-01-11T21:17:50Z)
Training-Free Generalization on Heterogeneous Tabular Data via Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文参考訳（メタデータ） (2023-10-31T18:03:54Z)
Mixed-Type Tabular Data Synthesis with Score-based Diffusion in Latent Space [37.78498089632884]
本稿では,変分オートエンコーダ(VAE)の潜在空間内での拡散モデルを利用して,表層データを合成する手法であるTabsynを紹介する。提案したTabsynの主な利点は,(1)単一統一空間に変換してカラム間関係を明示的に捉えることによって,データ型を広い範囲で扱えること,(2)品質:拡散モデルのその後のトレーニングを強化するために潜伏埋め込みの分布を最適化すること,(3)速度:既存の拡散モデルよりもはるかに少ないリバースステップと高速な合成速度を実現すること,である。
論文参考訳（メタデータ） (2023-10-14T19:59:03Z)
Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。 A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文参考訳（メタデータ） (2023-03-13T17:01:42Z)
Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion Models [54.1843419649895]
拡散確率モデル(DDPM)に基づく解を提案する。他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
論文参考訳（メタデータ） (2022-12-01T18:59:55Z)
TabDDPM: Modelling Tabular Data with Diffusion Models [33.202222842342465]
TabDDPM -- どんなデータセットにも普遍的に適用でき、どんなタイプの機能でも扱える拡散モデルです。我々は,TabDDPMを広範囲のベンチマークで評価し,既存のGAN/VAE代替よりも優れていることを示す。
論文参考訳（メタデータ） (2022-09-30T12:26:14Z)
DoubleMix: Simple Interpolation-Based Data Augmentation for Text Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。 DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文参考訳（メタデータ） (2022-09-12T15:01:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。