論文の概要: TabDDPM: Modelling Tabular Data with Diffusion Models
- arxiv url: http://arxiv.org/abs/2209.15421v1
- Date: Fri, 30 Sep 2022 12:26:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 16:07:59.993293
- Title: TabDDPM: Modelling Tabular Data with Diffusion Models
- Title(参考訳): tabddpm: 拡散モデルを用いた表データモデリング
- Authors: Akim Kotelnikov, Dmitry Baranchuk, Ivan Rubachev, Artem Babenko
- Abstract要約: TabDDPM -- どんなデータセットにも普遍的に適用でき、どんなタイプの機能でも扱える拡散モデルです。
我々は,TabDDPMを広範囲のベンチマークで評価し,既存のGAN/VAE代替よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 23.655109609658226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Denoising diffusion probabilistic models are currently becoming the leading
paradigm of generative modeling for many important data modalities. Being the
most prevalent in the computer vision community, diffusion models have also
recently gained some attention in other domains, including speech, NLP, and
graph-like data. In this work, we investigate if the framework of diffusion
models can be advantageous for general tabular problems, where datapoints are
typically represented by vectors of heterogeneous features. The inherent
heterogeneity of tabular data makes it quite challenging for accurate modeling,
since the individual features can be of completely different nature, i.e., some
of them can be continuous and some of them can be discrete. To address such
data types, we introduce TabDDPM -- a diffusion model that can be universally
applied to any tabular dataset and handles any type of feature. We extensively
evaluate TabDDPM on a wide set of benchmarks and demonstrate its superiority
over existing GAN/VAE alternatives, which is consistent with the advantage of
diffusion models in other fields. Additionally, we show that TabDDPM is
eligible for privacy-oriented setups, where the original datapoints cannot be
publicly shared.
- Abstract(参考訳): 離散拡散確率モデルは現在、多くの重要なデータモダリティの生成モデリングの主要なパラダイムとなっている。
コンピュータビジョンコミュニティでもっとも普及している拡散モデルは、音声、NLP、グラフのようなデータを含む他の領域でも最近注目を集めている。
本研究では,データポイントを不均質な特徴のベクトルとして表わす一般的な表問題に対して,拡散モデルの枠組みが有利であるかどうかを検討する。
表データの固有の不均一性は、個々の特徴が全く異なる性質、すなわちそれらのいくつかは連続的であり、いくつかの特徴は離散的であるため、正確なモデリングでは極めて困難である。
このようなデータ型に対処するために、タブ形式のデータセットに普遍的に適用でき、あらゆるタイプの機能を扱うことができる拡散モデルであるTabDDPMを紹介します。
我々は,TabDDPMを広範囲なベンチマークで評価し,既存のGAN/VAE代替よりも優れていることを示す。
さらに、TabDDPMは、元のデータポイントを公開できないプライバシー指向のセットアップに適していることを示す。
関連論文リスト
- Diffusion-nested Auto-Regressive Synthesis of Heterogeneous Tabular Data [56.48119008663155]
本稿では,これらの問題に対処する拡散型自己回帰モデル(TabDAR)を提案する。
異なる特性を持つ10のデータセットに対して広範な実験を行い、提案したTabDARは3つの異なる側面にわたる8つの指標に対して、従来の最先端手法を18%から45%上回っている。
論文 参考訳(メタデータ) (2024-10-28T20:49:26Z) - TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Self-Supervision Improves Diffusion Models for Tabular Data Imputation [20.871219616589986]
本稿では,自己教師型計算拡散モデル (SimpDM for brevity) という高度な拡散モデルを提案する。
ノイズに対する感度を緩和するために、モデルを規則化し、一貫した安定な計算予測を保証する自己教師付きアライメント機構を導入する。
我々はまた、SimpDM内で慎重に設計された状態依存データ拡張戦略を導入し、限られたデータを扱う際の拡散モデルの堅牢性を高める。
論文 参考訳(メタデータ) (2024-07-25T13:06:30Z) - Learning Divergence Fields for Shift-Robust Graph Representations [73.11818515795761]
本研究では,相互依存データに対する問題に対して,学習可能な分散場を持つ幾何学的拡散モデルを提案する。
因果推論によって新たな学習目標が導出され、ドメイン間で無神経な相互依存の一般化可能なパターンを学習するためのモデルが導出される。
論文 参考訳(メタデータ) (2024-06-07T14:29:21Z) - An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。
本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。
我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文 参考訳(メタデータ) (2024-04-12T12:31:06Z) - FedTabDiff: Federated Learning of Diffusion Probabilistic Models for
Synthetic Mixed-Type Tabular Data Generation [5.824064631226058]
textitFederated Tabular Diffusion (FedTabDiff) を導入し、元のデータセットに一元的にアクセスすることなく、高忠実な混合型表型データを生成する。
FedTabDiffは、データプライバシとローカリティを尊重しながら、複数のエンティティが共同で生成モデルをトレーニングできるようにする分散学習方式を実現する。
実世界の金融および医療データセットに関する実験的評価は、高い忠実性、ユーティリティ、プライバシ、カバレッジを維持する合成データを生成するフレームワークの能力を実証している。
論文 参考訳(メタデータ) (2024-01-11T21:17:50Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。
まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。
提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文 参考訳(メタデータ) (2023-07-02T03:49:47Z) - T1: Scaling Diffusion Probabilistic Fields to High-Resolution on Unified
Visual Modalities [69.16656086708291]
拡散確率場(DPF)は、距離空間上で定義された連続関数の分布をモデル化する。
本稿では,局所構造学習に着目したビューワイズサンプリングアルゴリズムによる新しいモデルを提案する。
モデルは、複数のモダリティを統一しながら、高解像度のデータを生成するためにスケールすることができる。
論文 参考訳(メタデータ) (2023-05-24T03:32:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。