論文の概要: Continuous Diffusion for Mixed-Type Tabular Data
- arxiv url: http://arxiv.org/abs/2312.10431v4
- Date: Mon, 24 Feb 2025 13:34:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:50:08.107086
- Title: Continuous Diffusion for Mixed-Type Tabular Data
- Title(参考訳): 混合型タブラリデータに対する連続拡散
- Authors: Markus Mueller, Kathrin Gruber, Dennis Fok,
- Abstract要約: 混合型タブラリデータのための連続拡散モデルCDTDを提案する。
連続的特徴とカテゴリー的特徴の両方に統一された連続的雑音分布を付与するスコアマッチングとスコアの新たな組み合わせに基づいている。
実験の結果,CDTDは最先端のベンチマークモデルより一貫して優れていた。
- 参考スコア(独自算出の注目度): 2.7992435001846827
- License:
- Abstract: Score-based generative models, commonly referred to as diffusion models, have proven to be successful at generating text and image data. However, their adaptation to mixed-type tabular data remains underexplored. In this work, we propose CDTD, a Continuous Diffusion model for mixed-type Tabular Data. CDTD is based on a novel combination of score matching and score interpolation to enforce a unified continuous noise distribution for both continuous and categorical features. We explicitly acknowledge the necessity of homogenizing distinct data types by relying on model-specific loss calibration and initialization schemes.To further address the high heterogeneity in mixed-type tabular data, we introduce adaptive feature- or type-specific noise schedules. These ensure balanced generative performance across features and optimize the allocation of model capacity across features and diffusion time. Our experimental results show that CDTD consistently outperforms state-of-the-art benchmark models, captures feature correlations exceptionally well, and that heterogeneity in the noise schedule design boosts sample quality. Replication code is available at https://github.com/muellermarkus/cdtd.
- Abstract(参考訳): 拡散モデルと呼ばれるスコアベースの生成モデルは、テキストや画像データを生成することに成功している。
しかし、混合型表型データへの適応性は未定である。
本研究では,混合型タブラリデータのための連続拡散モデルCDTDを提案する。
CDTDは、連続的特徴とカテゴリー的特徴の両方に統一された連続的な雑音分布を強制するために、スコアマッチングとスコア補間を組み合わせた新しい組み合わせに基づいている。
我々は、モデル固有の損失校正と初期化方式を頼りに、異なるデータ型を均質化する必要性を明確に認識し、混合型表型データにおける高均一性に対処するため、適応的な特徴・型別ノイズスケジュールを導入する。
これにより、機能間のバランスの取れた生成性能が保証され、機能間のモデルキャパシティの割り当てと拡散時間の最適化が図られる。
実験の結果,CDTDは常に最先端のベンチマークモデルより優れており,特徴相関が極めて良好であり,ノイズスケジュール設計の不均一性によりサンプル品質が向上することが示された。
レプリケーションコードはhttps://github.com/muellermarkus/cdtd.comで公開されている。
関連論文リスト
- TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。
本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。
我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文 参考訳(メタデータ) (2024-04-12T12:31:06Z) - Balanced Mixed-Type Tabular Data Synthesis with Diffusion Models [14.651592234678722]
現在の拡散モデルでは、トレーニングデータセットのバイアスを継承し、バイアス付き合成データを生成する傾向がある。
対象ラベルと感度属性のバランスの取れた結合分布を持つ公正な合成データを生成するために、センシティブガイダンスを組み込んだ新しいモデルを提案する。
本手法は, 得られたサンプルの品質を維持しつつ, トレーニングデータのバイアスを効果的に軽減する。
論文 参考訳(メタデータ) (2024-04-12T06:08:43Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - Synthesizing Mixed-type Electronic Health Records using Diffusion Models [10.973115905786129]
合成データ生成は、機密性の高い患者情報を共有する際のプライバシー上の懸念を軽減するための有望なソリューションである。
近年の研究では、拡散モデルは、より現実的な合成データの生成や、画像、テキスト、音声などのデータモダリティの生成における安定したトレーニングなど、GANに対していくつかの利点があることが示された。
実験の結果,TabDDPMは,プライバシーとユーティリティのトレードオフを確認するプライバシー以外のすべての評価指標において,最先端モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-28T15:42:30Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。