論文の概要: Continuous Diffusion for Mixed-Type Tabular Data
- arxiv url: http://arxiv.org/abs/2312.10431v3
- Date: Mon, 30 Sep 2024 13:45:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:01:27.649123
- Title: Continuous Diffusion for Mixed-Type Tabular Data
- Title(参考訳): 混合型タブラリデータに対する連続拡散
- Authors: Markus Mueller, Kathrin Gruber, Dennis Fok,
- Abstract要約: 混合型タブラリデータのための連続拡散モデルCDTDを提案する。
我々は、異なる適応的なノイズスケジュールを持つ混合型のデータに固有の高い不均一性に対処する。
実験の結果,CDTDは最先端のベンチマークモデルより一貫して優れていた。
- 参考スコア(独自算出の注目度): 2.7992435001846827
- License:
- Abstract: Score-based generative models (or diffusion models for short) have proven successful for generating text and image data. However, the adaption of this model family to tabular data of mixed-type has fallen short so far. In this paper, we propose CDTD, a Continuous Diffusion model for mixed-type Tabular Data. Specifically, we combine score matching and score interpolation to ensure a common continuous noise distribution for both continuous and categorical features alike. We counteract the high heterogeneity inherent to data of mixed-type with distinct, adaptive noise schedules per feature or per data type. The learnable noise schedules ensure optimally allocated model capacity and balanced generative capability. We homogenize the data types further with model-specific loss calibration and initialization schemes tailored to mixed-type tabular data. Our experimental results show that CDTD consistently outperforms state-of-the-art benchmark models, captures feature correlations exceptionally well, and that heterogeneity in the noise schedule design boosts the sample quality.
- Abstract(参考訳): スコアベースの生成モデル(略して拡散モデル)は、テキストや画像データを生成することに成功している。
しかし、このモデルファミリーの混合型の表型データへの適応は、これまでのところ不足している。
本稿では,混合型タブラリデータのための連続拡散モデルCDTDを提案する。
具体的には、スコアマッチングとスコア補間を組み合わせて、連続的特徴とカテゴリー的特徴の両方に対して共通の連続的なノイズ分布を確保する。
我々は、特徴またはデータタイプごとに異なる適応的なノイズスケジュールを持つ混合型のデータに固有の高い不均一性を対処する。
学習可能なノイズスケジュールは、最適に割り当てられたモデル容量とバランスの取れた生成能力を保証する。
我々は、混合型表データに適したモデル固有の損失校正と初期化スキームにより、データ型をさらに均質化する。
実験の結果,CDTDは常に最先端のベンチマークモデルより優れており,特徴相関が極めて良好であり,ノイズスケジュール設計の不均一性によりサンプル品質が向上することがわかった。
関連論文リスト
- TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。
本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。
我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文 参考訳(メタデータ) (2024-04-12T12:31:06Z) - Balanced Mixed-Type Tabular Data Synthesis with Diffusion Models [14.651592234678722]
現在の拡散モデルでは、トレーニングデータセットのバイアスを継承し、バイアス付き合成データを生成する傾向がある。
対象ラベルと感度属性のバランスの取れた結合分布を持つ公正な合成データを生成するために、センシティブガイダンスを組み込んだ新しいモデルを提案する。
本手法は, 得られたサンプルの品質を維持しつつ, トレーニングデータのバイアスを効果的に軽減する。
論文 参考訳(メタデータ) (2024-04-12T06:08:43Z) - Label-Noise Robust Diffusion Models [18.82847557713331]
条件拡散モデルは、様々な生成タスクにおいて顕著な性能を示した。
訓練には、条件付き入力でしばしばノイズを含む大規模なデータセット、すなわちノイズラベルが必要である。
本稿では,雑音ラベル付き条件付き拡散モデルの学習のための遷移対応重み付きDenoising Score Matchingを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:00:34Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - Synthesizing Mixed-type Electronic Health Records using Diffusion Models [10.973115905786129]
合成データ生成は、機密性の高い患者情報を共有する際のプライバシー上の懸念を軽減するための有望なソリューションである。
近年の研究では、拡散モデルは、より現実的な合成データの生成や、画像、テキスト、音声などのデータモダリティの生成における安定したトレーニングなど、GANに対していくつかの利点があることが示された。
実験の結果,TabDDPMは,プライバシーとユーティリティのトレードオフを確認するプライバシー以外のすべての評価指標において,最先端モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-28T15:42:30Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。