論文の概要: Mixed-Type Tabular Data Synthesis with Score-based Diffusion in Latent
Space
- arxiv url: http://arxiv.org/abs/2310.09656v1
- Date: Sat, 14 Oct 2023 19:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 19:01:51.503037
- Title: Mixed-Type Tabular Data Synthesis with Score-based Diffusion in Latent
Space
- Title(参考訳): Score-based Diffusion を用いた混合型語彙データ合成
- Authors: Hengrui Zhang, Jiani Zhang, Balasubramaniam Srinivasan, Zhengyuan
Shen, Xiao Qin, Christos Faloutsos, Huzefa Rangwala and George Karypis
- Abstract要約: TABSYNは、データを単一の統一空間に変換することで、幅広い種類のデータを扱うことができる。
カラムワイド分布とペアワイドカラム相関推定において,エラー率を86%,67%削減する。
- 参考スコア(独自算出の注目度): 39.412387813070474
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in tabular data generation have greatly enhanced synthetic
data quality. However, extending diffusion models to tabular data is
challenging due to the intricately varied distributions and a blend of data
types of tabular data. This paper introduces TABSYN, a methodology that
synthesizes tabular data by leveraging a diffusion model within a variational
autoencoder (VAE) crafted latent space. The key advantages of the proposed
TABSYN include (1) Generality: the ability to handle a broad spectrum of data
types by converting them into a single unified space and explicitly capture
inter-column relations; (2) Quality: optimizing the distribution of latent
embeddings to enhance the subsequent training of diffusion models, which helps
generate high-quality synthetic data, (3) Speed: much fewer number of reverse
steps and faster synthesis speed than existing diffusion-based methods.
Extensive experiments on six datasets with five metrics demonstrate that TABSYN
outperforms existing methods. Specifically, it reduces the error rates by 86%
and 67% for column-wise distribution and pair-wise column correlation
estimations compared with the most competitive baselines.
- Abstract(参考訳): 表データ生成の最近の進歩は、合成データの品質を大幅に向上させた。
しかし,表データへの拡散モデルの拡張は,複雑に変化する分布とデータ型の組み合わせにより困難である。
本稿では,変分オートエンコーダ(VAE)における拡散モデルを利用して,表層データを合成する手法であるTABSYNを紹介する。
提案したTABSYNの主な利点は,(1) 汎用性: 単一統一空間に変換してカラム間関係を明示的に捉えることによって,データ型を広い範囲で扱える能力;(2) 品質: 潜伏埋め込みの分布を最適化し,その後の拡散モデルのトレーニングを強化すること,(3) 高品質な合成データの生成を支援すること,(3) 速度: 逆ステップの数が少ないこと,および既存の拡散法よりも高速な合成速度。
5つのメトリクスによる6つのデータセットに関する広範な実験は、tabsynが既存のメソッドを上回ることを示している。
具体的には、最も競争の激しいベースラインと比較して、列間分布とペア間相関推定のエラー率を86%と67%削減する。
関連論文リスト
- Balanced Mixed-Type Tabular Data Synthesis with Diffusion Models [4.624729755957781]
感性特性のバランスデータを生成するために, 公平な拡散モデルを導入する。
本研究では,本手法が学習データにおけるクラス不均衡を効果的に軽減することを示す実証的証拠を示す。
論文 参考訳(メタデータ) (2024-04-12T06:08:43Z) - DreamDA: Generative Data Augmentation with Diffusion Models [68.22440150419003]
本稿では,新しい分類指向フレームワークDreamDAを提案する。
DreamDAは、オリジナルのデータのトレーニングイメージを種として考慮して、オリジナルのデータ分布に準拠する多様なサンプルを生成する。
また、生成したデータのラベルは、対応するシード画像のラベルと一致しない可能性があるため、擬似ラベルを生成するための自己学習パラダイムを導入する。
論文 参考訳(メタデータ) (2024-03-19T15:04:35Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - FedTabDiff: Federated Learning of Diffusion Probabilistic Models for
Synthetic Mixed-Type Tabular Data Generation [5.824064631226058]
textitFederated Tabular Diffusion (FedTabDiff) を導入し、元のデータセットに一元的にアクセスすることなく、高忠実な混合型表型データを生成する。
FedTabDiffは、データプライバシとローカリティを尊重しながら、複数のエンティティが共同で生成モデルをトレーニングできるようにする分散学習方式を実現する。
実世界の金融および医療データセットに関する実験的評価は、高い忠実性、ユーティリティ、プライバシ、カバレッジを維持する合成データを生成するフレームワークの能力を実証している。
論文 参考訳(メタデータ) (2024-01-11T21:17:50Z) - AutoDiff: combining Auto-encoder and Diffusion model for tabular data
synthesizing [12.06889830487286]
拡散モデルは、現代の機械学習において、合成データ生成の主要なパラダイムとなっている。
本稿では,合成表データを生成するために拡散モデルのパワーを利用する。
生成した合成表は、実データに対する優れた統計的忠実度を示し、機械学習ユーティリティの下流タスクでよく機能する。
論文 参考訳(メタデータ) (2023-10-24T03:15:19Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Generating tabular datasets under differential privacy [0.0]
ディープニューラルネットワークのトレーニングプロセスに差分プライバシー(DP)を導入する。
これにより、結果データの品質とプライバシの間にトレードオフが生じます。
我々は、注意機構を活用する新しいエンドツーエンドモデルを実装している。
論文 参考訳(メタデータ) (2023-08-28T16:35:43Z) - CoDi: Co-evolving Contrastive Diffusion Models for Mixed-type Tabular
Synthesis [28.460781361829326]
2つの拡散モデルにより連続変数と離散変数を別々に(しかし互いに条件付けされている)処理することを提案する。
2つの拡散モデルは、互いに読み合うことによって、訓練中に共進化する。
実世界の11のデータセットと8のベースライン手法を用いて実験を行い,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-04-25T08:38:36Z) - Dataset Distillation via Factorization [58.8114016318593]
既存のデータセット蒸留(DD)ベースラインに移植可能なプラグ・アンド・プレイ戦略であるEmphHaBaと呼ばれるEmphdataset Factorizationアプローチを導入する。
emphHaBaは、データセットをデータemphHallucinationネットワークとemphBaseの2つのコンポーネントに分解する方法を探っている。
提案手法は, 圧縮パラメータの総数を最大65%削減しつつ, 下流の分類タスクを従来に比べて大幅に改善することができる。
論文 参考訳(メタデータ) (2022-10-30T08:36:19Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。