論文の概要: TabDDPM: Modelling Tabular Data with Diffusion Models
- arxiv url: http://arxiv.org/abs/2209.15421v1
- Date: Fri, 30 Sep 2022 12:26:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 16:07:59.993293
- Title: TabDDPM: Modelling Tabular Data with Diffusion Models
- Title(参考訳): tabddpm: 拡散モデルを用いた表データモデリング
- Authors: Akim Kotelnikov, Dmitry Baranchuk, Ivan Rubachev, Artem Babenko
- Abstract要約: TabDDPM -- どんなデータセットにも普遍的に適用でき、どんなタイプの機能でも扱える拡散モデルです。
我々は,TabDDPMを広範囲のベンチマークで評価し,既存のGAN/VAE代替よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 23.655109609658226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Denoising diffusion probabilistic models are currently becoming the leading
paradigm of generative modeling for many important data modalities. Being the
most prevalent in the computer vision community, diffusion models have also
recently gained some attention in other domains, including speech, NLP, and
graph-like data. In this work, we investigate if the framework of diffusion
models can be advantageous for general tabular problems, where datapoints are
typically represented by vectors of heterogeneous features. The inherent
heterogeneity of tabular data makes it quite challenging for accurate modeling,
since the individual features can be of completely different nature, i.e., some
of them can be continuous and some of them can be discrete. To address such
data types, we introduce TabDDPM -- a diffusion model that can be universally
applied to any tabular dataset and handles any type of feature. We extensively
evaluate TabDDPM on a wide set of benchmarks and demonstrate its superiority
over existing GAN/VAE alternatives, which is consistent with the advantage of
diffusion models in other fields. Additionally, we show that TabDDPM is
eligible for privacy-oriented setups, where the original datapoints cannot be
publicly shared.
- Abstract(参考訳): 離散拡散確率モデルは現在、多くの重要なデータモダリティの生成モデリングの主要なパラダイムとなっている。
コンピュータビジョンコミュニティでもっとも普及している拡散モデルは、音声、NLP、グラフのようなデータを含む他の領域でも最近注目を集めている。
本研究では,データポイントを不均質な特徴のベクトルとして表わす一般的な表問題に対して,拡散モデルの枠組みが有利であるかどうかを検討する。
表データの固有の不均一性は、個々の特徴が全く異なる性質、すなわちそれらのいくつかは連続的であり、いくつかの特徴は離散的であるため、正確なモデリングでは極めて困難である。
このようなデータ型に対処するために、タブ形式のデータセットに普遍的に適用でき、あらゆるタイプの機能を扱うことができる拡散モデルであるTabDDPMを紹介します。
我々は,TabDDPMを広範囲なベンチマークで評価し,既存のGAN/VAE代替よりも優れていることを示す。
さらに、TabDDPMは、元のデータポイントを公開できないプライバシー指向のセットアップに適していることを示す。
関連論文リスト
- FedTabDiff: Federated Learning of Diffusion Probabilistic Models for
Synthetic Mixed-Type Tabular Data Generation [5.824064631226058]
textitFederated Tabular Diffusion (FedTabDiff) を導入し、元のデータセットに一元的にアクセスすることなく、高忠実な混合型表型データを生成する。
FedTabDiffは、データプライバシとローカリティを尊重しながら、複数のエンティティが共同で生成モデルをトレーニングできるようにする分散学習方式を実現する。
実世界の金融および医療データセットに関する実験的評価は、高い忠実性、ユーティリティ、プライバシ、カバレッジを維持する合成データを生成するフレームワークの能力を実証している。
論文 参考訳(メタデータ) (2024-01-11T21:17:50Z) - Continuous Diffusion for Mixed-Type Tabular Data [3.146069168382982]
本稿では,スコアマッチングとスコア決定を組み合わせることで,共通タイプの連続雑音分布を確保する。
また,特徴やデータタイプ毎に異なるノイズスケジュールの影響についても検討する。
その結果、我々のモデルは最先端のベンチマークモデルより一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T12:21:03Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data
Distribution [76.33705947080871]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。
まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。
提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文 参考訳(メタデータ) (2023-07-02T03:49:47Z) - T1: Scaling Diffusion Probabilistic Fields to High-Resolution on Unified
Visual Modalities [69.16656086708291]
拡散確率場(DPF)は、距離空間上で定義された連続関数の分布をモデル化する。
本稿では,局所構造学習に着目したビューワイズサンプリングアルゴリズムによる新しいモデルを提案する。
モデルは、複数のモダリティを統一しながら、高解像度のデータを生成するためにスケールすることができる。
論文 参考訳(メタデータ) (2023-05-24T03:32:03Z) - Analyzing Bias in Diffusion-based Face Generation Models [75.80072686374564]
拡散モデルは、合成データ生成と画像編集アプリケーションでますます人気がある。
本研究では, 性別, 人種, 年齢などの属性に関して, 拡散型顔生成モデルにおけるバイアスの存在について検討する。
本研究は,GAN(Generative Adversarial Network)とGAN(Generative Adversarial Network)をベースとした顔生成モデルにおいて,データセットサイズが属性組成および知覚品質に与える影響について検討する。
論文 参考訳(メタデータ) (2023-05-10T18:22:31Z) - Generative Models as Distributions of Functions [72.2682083758999]
生成モデルは一般的に、画像のようなグリッドのようなデータに基づいて訓練される。
本稿では,離散格子を放棄し,連続関数による個々のデータポイントのパラメータ化を行う。
論文 参考訳(メタデータ) (2021-02-09T11:47:55Z) - VAEM: a Deep Generative Model for Heterogeneous Mixed Type Data [16.00692074660383]
VAEMは2段階的に訓練された深層生成モデルである。
VAEMは、深層生成モデルをうまく展開できる現実世界のアプリケーションの範囲を広げることを示す。
論文 参考訳(メタデータ) (2020-06-21T23:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。