Fugu-MT 論文翻訳(概要): Mixed-Type Tabular Data Synthesis with Score-based Diffusion in Latent Space

論文の概要: Mixed-Type Tabular Data Synthesis with Score-based Diffusion in Latent Space

arxiv url: http://arxiv.org/abs/2310.09656v2
Date: Mon, 12 Feb 2024 07:33:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 22:09:21.828202
Title: Mixed-Type Tabular Data Synthesis with Score-based Diffusion in Latent Space
Title（参考訳）: Score-based Diffusion を用いた混合型語彙データ合成
Authors: Hengrui Zhang, Jiani Zhang, Balasubramaniam Srinivasan, Zhengyuan Shen, Xiao Qin, Christos Faloutsos, Huzefa Rangwala and George Karypis
Abstract要約: 本稿では,変分オートエンコーダ(VAE)の潜在空間内での拡散モデルを利用して,表層データを合成する手法であるTabsynを紹介する。提案したTabsynの主な利点は,(1)単一統一空間に変換してカラム間関係を明示的に捉えることによって,データ型を広い範囲で扱えること,(2)品質:拡散モデルのその後のトレーニングを強化するために潜伏埋め込みの分布を最適化すること,(3)速度:既存の拡散モデルよりもはるかに少ないリバースステップと高速な合成速度を実現すること,である。
参考スコア（独自算出の注目度）: 39.412387813070474
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent advances in tabular data generation have greatly enhanced synthetic data quality. However, extending diffusion models to tabular data is challenging due to the intricately varied distributions and a blend of data types of tabular data. This paper introduces Tabsyn, a methodology that synthesizes tabular data by leveraging a diffusion model within a variational autoencoder (VAE) crafted latent space. The key advantages of the proposed Tabsyn include (1) Generality: the ability to handle a broad spectrum of data types by converting them into a single unified space and explicitly capture inter-column relations; (2) Quality: optimizing the distribution of latent embeddings to enhance the subsequent training of diffusion models, which helps generate high-quality synthetic data, (3) Speed: much fewer number of reverse steps and faster synthesis speed than existing diffusion-based methods. Extensive experiments on six datasets with five metrics demonstrate that Tabsyn outperforms existing methods. Specifically, it reduces the error rates by 86% and 67% for column-wise distribution and pair-wise column correlation estimations compared with the most competitive baselines.
Abstract（参考訳）: 表データ生成の最近の進歩は、合成データの品質を大幅に向上させた。しかし,表データへの拡散モデルの拡張は,複雑に変化する分布とデータ型の組み合わせにより困難である。本稿では,変分オートエンコーダ(VAE)の潜在空間内での拡散モデルを利用して,表層データを合成する手法であるTabsynを紹介する。提案するtabsynの主な利点は,(1) 汎用性: 単一の統一空間に変換し,明らかにコラム間の関係を捉えることにより,幅広いデータ型を扱う能力,(2) 品質: 拡散モデルのトレーニングを強化するために潜在埋め込みの分散を最適化すること,(3) 速度: 逆ステップの数が少なく,既存の拡散ベースの手法よりも高速に合成できること,等である。 5つのメトリクスによる6つのデータセットに関する広範な実験は、tabsynが既存のメソッドを上回ることを示している。具体的には、最も競争の激しいベースラインと比較して、列間分布とペア間相関推定のエラー率を86%と67%削減する。

関連論文リスト

CtrTab: Tabular Data Synthesis with High-Dimensional and Limited Data [16.166752861658953]
データ次元が大きくなると、既存のモデルは縮退する傾向があり、単純な非拡散モデルよりもさらに悪いパフォーマンスを示す可能性がある。これは、高次元空間における限られたトレーニングサンプルが、しばしば生成モデルが分布を正確に捉えることを妨げているためである。我々は,高次元,低データシナリオにおける拡散型生成モデルの性能向上のために,CtrTabを提案する。
論文参考訳（メタデータ） (2025-03-09T05:01:56Z)
LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。 LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。 LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文参考訳（メタデータ） (2025-03-04T00:47:52Z)
Diffusion-nested Auto-Regressive Synthesis of Heterogeneous Tabular Data [56.48119008663155]
本稿では,これらの問題に対処する拡散型自己回帰モデル(TabDAR)を提案する。異なる特性を持つ10のデータセットに対して広範な実験を行い、提案したTabDARは3つの異なる側面にわたる8つの指標に対して、従来の最先端手法を18%から45%上回っている。
論文参考訳（メタデータ） (2024-10-28T20:49:26Z)
TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。 TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文参考訳（メタデータ） (2024-10-27T22:58:47Z)
Data Augmentation via Diffusion Model to Enhance AI Fairness [1.2979015577834876]
本稿では,AIフェアネスを改善するために合成データを生成する拡散モデルの可能性について検討する。 Tabular Denoising Diffusion Probabilistic Model (Tab-DDPM) を用いてデータ拡張を行った。実験結果から,Tab-DDPMにより生成された合成データは,二項分類の公平性を向上させることが示された。
論文参考訳（メタデータ） (2024-10-20T18:52:31Z)
Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文参考訳（メタデータ） (2024-06-25T10:49:56Z)
Balanced Mixed-Type Tabular Data Synthesis with Diffusion Models [14.651592234678722]
現在の拡散モデルでは、トレーニングデータセットのバイアスを継承し、バイアス付き合成データを生成する傾向がある。対象ラベルと感度属性のバランスの取れた結合分布を持つ公正な合成データを生成するために、センシティブガイダンスを組み込んだ新しいモデルを提案する。本手法は, 得られたサンプルの品質を維持しつつ, トレーニングデータのバイアスを効果的に軽減する。
論文参考訳（メタデータ） (2024-04-12T06:08:43Z)
DreamDA: Generative Data Augmentation with Diffusion Models [68.22440150419003]
本稿では,新しい分類指向フレームワークDreamDAを提案する。 DreamDAは、オリジナルのデータのトレーニングイメージを種として考慮して、オリジナルのデータ分布に準拠する多様なサンプルを生成する。また、生成したデータのラベルは、対応するシード画像のラベルと一致しない可能性があるため、擬似ラベルを生成するための自己学習パラダイムを導入する。
論文参考訳（メタデータ） (2024-03-19T15:04:35Z)
Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。 DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文参考訳（メタデータ） (2024-03-11T14:07:53Z)
Generating tabular datasets under differential privacy [0.0]
ディープニューラルネットワークのトレーニングプロセスに差分プライバシー(DP)を導入する。これにより、結果データの品質とプライバシの間にトレードオフが生じます。我々は、注意機構を活用する新しいエンドツーエンドモデルを実装している。
論文参考訳（メタデータ） (2023-08-28T16:35:43Z)
CoDi: Co-evolving Contrastive Diffusion Models for Mixed-type Tabular Synthesis [28.460781361829326]
2つの拡散モデルにより連続変数と離散変数を別々に(しかし互いに条件付けされている)処理することを提案する。 2つの拡散モデルは、互いに読み合うことによって、訓練中に共進化する。実世界の11のデータセットと8のベースライン手法を用いて実験を行い,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2023-04-25T08:38:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。