論文の概要: An improved tabular data generator with VAE-GMM integration
- arxiv url: http://arxiv.org/abs/2404.08434v1
- Date: Fri, 12 Apr 2024 12:31:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 15:06:48.526174
- Title: An improved tabular data generator with VAE-GMM integration
- Title(参考訳): VAE-GMM統合による表型データ生成装置の改良
- Authors: Patricia A. Apellániz, Juan Parras, Santiago Zazo,
- Abstract要約: 本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。
本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。
我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
- 参考スコア(独自算出の注目度): 9.4491536689161
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rising use of machine learning in various fields requires robust methods to create synthetic tabular data. Data should preserve key characteristics while addressing data scarcity challenges. Current approaches based on Generative Adversarial Networks, such as the state-of-the-art CTGAN model, struggle with the complex structures inherent in tabular data. These data often contain both continuous and discrete features with non-Gaussian distributions. Therefore, we propose a novel Variational Autoencoder (VAE)-based model that addresses these limitations. Inspired by the TVAE model, our approach incorporates a Bayesian Gaussian Mixture model (BGM) within the VAE architecture. This avoids the limitations imposed by assuming a strictly Gaussian latent space, allowing for a more accurate representation of the underlying data distribution during data generation. Furthermore, our model offers enhanced flexibility by allowing the use of various differentiable distributions for individual features, making it possible to handle both continuous and discrete data types. We thoroughly validate our model on three real-world datasets with mixed data types, including two medically relevant ones, based on their resemblance and utility. This evaluation demonstrates significant outperformance against CTGAN and TVAE, establishing its potential as a valuable tool for generating synthetic tabular data in various domains, particularly in healthcare.
- Abstract(参考訳): さまざまな分野における機械学習の利用の増加は、合成表データを作成するための堅牢な方法を必要とする。
データ不足の課題に対処しながら、データは重要な特性を保持する必要がある。
現状のCTGANモデルのようなジェネレーティブ・アドバイサル・ネットワークに基づく現在のアプローチは、表データに固有の複雑な構造と競合する。
これらのデータは、非ガウス分布を持つ連続的特徴と離散的特徴の両方を含むことが多い。
そこで本研究では,これらの制約に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。
本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。
これにより、厳密なガウス潜在空間を仮定することで課される制限を回避し、データ生成中に基礎となるデータ分布をより正確に表現することができる。
さらに,本モデルでは,個々の特徴に対して様々な微分可能な分布を利用可能にすることで,連続データ型と離散データ型の両方を扱えるようにし,柔軟性の向上を実現している。
我々は,その類似性と有用性に基づいて,医療関連データを含む3つの実世界のデータセットに対して,我々のモデルを徹底的に検証する。
この評価はCTGANとTVAEに対する顕著な成績を示し、特に医療において、様々な領域で合成表データを生成する貴重なツールとしての可能性を確立した。
関連論文リスト
- Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Fake It Till Make It: Federated Learning with Consensus-Oriented
Generation [52.82176415223988]
コンセンサス指向生成による連合学習(FedCOG)を提案する。
FedCOGは、補完的なデータ生成と知識蒸留に基づくモデルトレーニングという、クライアント側の2つの重要なコンポーネントで構成されています。
古典的および実世界のFLデータセットの実験は、FedCOGが一貫して最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2023-12-10T18:49:59Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data
Distribution [76.33705947080871]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Generative Modeling of Regular and Irregular Time Series Data via
Koopman VAEs [53.91784369229405]
モデルの新しい設計に基づく新しい生成フレームワークであるKoopman VAEを紹介する。
クープマン理論に触発され、線形写像を用いて潜在条件事前力学を表現する。
以上の結果から,KVAEは,合成および実世界の時系列生成ベンチマークにおいて,最先端のGAN法およびVAE法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-04T07:14:43Z) - CasTGAN: Cascaded Generative Adversarial Network for Realistic Tabular
Data Synthesis [0.4999814847776097]
近年,GAN(Generative Adversarial Network)が注目されている。
合成データの妥当性と基礎となるプライバシーに関する懸念は、十分に対処されていない主要な課題を表している。
論文 参考訳(メタデータ) (2023-07-01T16:52:18Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Targeted Analysis of High-Risk States Using an Oriented Variational
Autoencoder [3.494548275937873]
可変オートエンコーダ(VAE)ニューラルネットワークは、電力系統状態を生成するために訓練することができる。
VAEの潜在空間符号の座標は、データの概念的特徴と相関することが示されている。
本稿では、遅延空間コードと生成されたデータとのリンクを制限するために、指向性変動オートエンコーダ(OVAE)を提案する。
論文 参考訳(メタデータ) (2023-03-20T19:34:21Z) - Synthesizing Mixed-type Electronic Health Records using Diffusion Models [10.973115905786129]
合成データ生成は、機密性の高い患者情報を共有する際のプライバシー上の懸念を軽減するための有望なソリューションである。
近年の研究では、拡散モデルは、より現実的な合成データの生成や、画像、テキスト、音声などのデータモダリティの生成における安定したトレーニングなど、GANに対していくつかの利点があることが示された。
実験の結果,TabDDPMは,プライバシーとユーティリティのトレードオフを確認するプライバシー以外のすべての評価指標において,最先端モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-28T15:42:30Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Improving Correlation Capture in Generating Imbalanced Data using
Differentially Private Conditional GANs [2.2265840715792735]
DP-CGANSは,データ変換,サンプリング,コンディショニング,ネットワークトレーニングにより,現実的かつプライバシ保護データを生成する,微分プライベートな条件付きGANフレームワークである。
統計的類似性,機械学習性能,プライバシ測定の点から,3つの公開データセットと2つの実世界の個人健康データセットの最先端生成モデルを用いて,我々のモデルを広範囲に評価した。
論文 参考訳(メタデータ) (2022-06-28T06:47:27Z) - DATGAN: Integrating expert knowledge into deep learning for synthetic
tabular data [0.0]
合成データは、バイアスデータセットの修正や、シミュレーション目的の不足したオリジナルデータの置換など、さまざまなアプリケーションで使用することができる。
ディープラーニングモデルはデータ駆動であり、生成プロセスを制御するのは難しい。
本稿では、これらの制限に対処するため、DATGAN(Directed Acyclic Tabular GAN)を提案する。
論文 参考訳(メタデータ) (2022-03-07T16:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。