Fugu-MT 論文翻訳(概要): An improved tabular data generator with VAE-GMM integration

論文の概要: An improved tabular data generator with VAE-GMM integration

arxiv url: http://arxiv.org/abs/2404.08434v1
Date: Fri, 12 Apr 2024 12:31:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-15 15:06:48.526174
Title: An improved tabular data generator with VAE-GMM integration
Title（参考訳）: VAE-GMM統合による表型データ生成装置の改良
Authors: Patricia A. Apellániz, Juan Parras, Santiago Zazo,
Abstract要約: 本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
参考スコア（独自算出の注目度）: 9.4491536689161
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The rising use of machine learning in various fields requires robust methods to create synthetic tabular data. Data should preserve key characteristics while addressing data scarcity challenges. Current approaches based on Generative Adversarial Networks, such as the state-of-the-art CTGAN model, struggle with the complex structures inherent in tabular data. These data often contain both continuous and discrete features with non-Gaussian distributions. Therefore, we propose a novel Variational Autoencoder (VAE)-based model that addresses these limitations. Inspired by the TVAE model, our approach incorporates a Bayesian Gaussian Mixture model (BGM) within the VAE architecture. This avoids the limitations imposed by assuming a strictly Gaussian latent space, allowing for a more accurate representation of the underlying data distribution during data generation. Furthermore, our model offers enhanced flexibility by allowing the use of various differentiable distributions for individual features, making it possible to handle both continuous and discrete data types. We thoroughly validate our model on three real-world datasets with mixed data types, including two medically relevant ones, based on their resemblance and utility. This evaluation demonstrates significant outperformance against CTGAN and TVAE, establishing its potential as a valuable tool for generating synthetic tabular data in various domains, particularly in healthcare.
Abstract（参考訳）: さまざまな分野における機械学習の利用の増加は、合成表データを作成するための堅牢な方法を必要とする。データ不足の課題に対処しながら、データは重要な特性を保持する必要がある。現状のCTGANモデルのようなジェネレーティブ・アドバイサル・ネットワークに基づく現在のアプローチは、表データに固有の複雑な構造と競合する。これらのデータは、非ガウス分布を持つ連続的特徴と離散的特徴の両方を含むことが多い。そこで本研究では,これらの制約に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。これにより、厳密なガウス潜在空間を仮定することで課される制限を回避し、データ生成中に基礎となるデータ分布をより正確に表現することができる。さらに,本モデルでは,個々の特徴に対して様々な微分可能な分布を利用可能にすることで,連続データ型と離散データ型の両方を扱えるようにし,柔軟性の向上を実現している。我々は,その類似性と有用性に基づいて,医療関連データを含む3つの実世界のデータセットに対して,我々のモデルを徹底的に検証する。この評価はCTGANとTVAEに対する顕著な成績を示し、特に医療において、様々な領域で合成表データを生成する貴重なツールとしての可能性を確立した。

関連論文リスト

Efficient Federated Learning with Heterogeneous Data and Adaptive Dropout [62.73150122809138]
Federated Learning(FL)は、複数のエッジデバイスを使用したグローバルモデルの協調トレーニングを可能にする、有望な分散機械学習アプローチである。動的不均一モデルアグリゲーション(FedDH)と適応ドロップアウト(FedAD)の2つの新しい手法を備えたFedDHAD FLフレームワークを提案する。これら2つの手法を組み合わせることで、FedDHADは精度(最大6.7%)、効率(最大2.02倍高速)、コスト(最大15.0%小型)で最先端のソリューションを大幅に上回っている。
論文参考訳（メタデータ） (2025-07-14T16:19:00Z)
TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。 TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文参考訳（メタデータ） (2024-10-27T22:58:47Z)
Learning Divergence Fields for Shift-Robust Graph Representations [73.11818515795761]
本研究では,相互依存データに対する問題に対して,学習可能な分散場を持つ幾何学的拡散モデルを提案する。因果推論によって新たな学習目標が導出され、ドメイン間で無神経な相互依存の一般化可能なパターンを学習するためのモデルが導出される。
論文参考訳（メタデータ） (2024-06-07T14:29:21Z)
DiverGen: Improving Instance Segmentation by Learning Wider Data Distribution with More Diverse Generative Data [48.31817189858086]
生成データは、モデルが学習できるデータ分布を拡大し、過剰適合を軽減できると主張している。 DiverGenは強力なX-Pasteよりも優れており、すべてのカテゴリで+1.1ボックスAPと+1.1マスクAPを達成でき、まれなカテゴリでは+1.9ボックスAPと+2.5マスクAPを達成できる。
論文参考訳（メタデータ） (2024-05-16T15:30:18Z)
Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。 DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文参考訳（メタデータ） (2024-03-11T14:07:53Z)
FedTabDiff: Federated Learning of Diffusion Probabilistic Models for Synthetic Mixed-Type Tabular Data Generation [5.824064631226058]
textitFederated Tabular Diffusion (FedTabDiff) を導入し、元のデータセットに一元的にアクセスすることなく、高忠実な混合型表型データを生成する。 FedTabDiffは、データプライバシとローカリティを尊重しながら、複数のエンティティが共同で生成モデルをトレーニングできるようにする分散学習方式を実現する。実世界の金融および医療データセットに関する実験的評価は、高い忠実性、ユーティリティ、プライバシ、カバレッジを維持する合成データを生成するフレームワークの能力を実証している。
論文参考訳（メタデータ） (2024-01-11T21:17:50Z)
CasTGAN: Cascaded Generative Adversarial Network for Realistic Tabular Data Synthesis [0.4999814847776097]
近年,GAN(Generative Adversarial Network)が注目されている。合成データの妥当性と基礎となるプライバシーに関する懸念は、十分に対処されていない主要な課題を表している。
論文参考訳（メタデータ） (2023-07-01T16:52:18Z)
VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2023-04-03T13:13:19Z)
Targeted Analysis of High-Risk States Using an Oriented Variational Autoencoder [3.494548275937873]
可変オートエンコーダ(VAE)ニューラルネットワークは、電力系統状態を生成するために訓練することができる。 VAEの潜在空間符号の座標は、データの概念的特徴と相関することが示されている。本稿では、遅延空間コードと生成されたデータとのリンクを制限するために、指向性変動オートエンコーダ(OVAE)を提案する。
論文参考訳（メタデータ） (2023-03-20T19:34:21Z)
Synthesizing Mixed-type Electronic Health Records using Diffusion Models [10.973115905786129]
合成データ生成は、機密性の高い患者情報を共有する際のプライバシー上の懸念を軽減するための有望なソリューションである。近年の研究では、拡散モデルは、より現実的な合成データの生成や、画像、テキスト、音声などのデータモダリティの生成における安定したトレーニングなど、GANに対していくつかの利点があることが示された。実験の結果,TabDDPMは,プライバシーとユーティリティのトレードオフを確認するプライバシー以外のすべての評価指標において,最先端モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-02-28T15:42:30Z)
Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文参考訳（メタデータ） (2022-10-05T09:17:27Z)
Improving Correlation Capture in Generating Imbalanced Data using Differentially Private Conditional GANs [2.2265840715792735]
DP-CGANSは,データ変換,サンプリング,コンディショニング,ネットワークトレーニングにより,現実的かつプライバシ保護データを生成する,微分プライベートな条件付きGANフレームワークである。統計的類似性,機械学習性能,プライバシ測定の点から,3つの公開データセットと2つの実世界の個人健康データセットの最先端生成モデルを用いて,我々のモデルを広範囲に評価した。
論文参考訳（メタデータ） (2022-06-28T06:47:27Z)
DATGAN: Integrating expert knowledge into deep learning for synthetic tabular data [0.0]
合成データは、バイアスデータセットの修正や、シミュレーション目的の不足したオリジナルデータの置換など、さまざまなアプリケーションで使用することができる。ディープラーニングモデルはデータ駆動であり、生成プロセスを制御するのは難しい。本稿では、これらの制限に対処するため、DATGAN(Directed Acyclic Tabular GAN)を提案する。
論文参考訳（メタデータ） (2022-03-07T16:09:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。