論文の概要: Adapting deep generative approaches for getting synthetic data with
realistic marginal distributions
- arxiv url: http://arxiv.org/abs/2105.06907v1
- Date: Fri, 14 May 2021 15:47:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 12:51:39.208922
- Title: Adapting deep generative approaches for getting synthetic data with
realistic marginal distributions
- Title(参考訳): リアルな限界分布を持つ合成データを得るための深層生成法の適用
- Authors: Kiana Farhadyar, Federico Bonofiglio, Daniela Zoeller and Harald
Binder
- Abstract要約: 可変オートエンコーダ(VAE)のような深層生成モデルは、元のデータからこのような合成データセットを作成するための一般的なアプローチである。
本稿では,バイモーダルおよびスキュードデータに対処する新しい手法,PTVAE(pre-transformation variational autoencoders)を提案する。
その結果、PTVAEアプローチはバイモーダルデータとスキューデータの両方において他よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic data generation is of great interest in diverse applications, such
as for privacy protection. Deep generative models, such as variational
autoencoders (VAEs), are a popular approach for creating such synthetic
datasets from original data. Despite the success of VAEs, there are limitations
when it comes to the bimodal and skewed marginal distributions. These deviate
from the unimodal symmetric distributions that are encouraged by the normality
assumption typically used for the latent representations in VAEs. While there
are extensions that assume other distributions for the latent space, this does
not generally increase flexibility for data with many different distributions.
Therefore, we propose a novel method, pre-transformation variational
autoencoders (PTVAEs), to specifically address bimodal and skewed data, by
employing pre-transformations at the level of original variables. Two types of
transformations are used to bring the data close to a normal distribution by a
separate parameter optimization for each variable in a dataset. We compare the
performance of our method with other state-of-the-art methods for synthetic
data generation. In addition to the visual comparison, we use a utility
measurement for a quantitative evaluation. The results show that the PTVAE
approach can outperform others in both bimodal and skewed data generation.
Furthermore, the simplicity of the approach makes it usable in combination with
other extensions of VAE.
- Abstract(参考訳): 合成データ生成は、プライバシー保護などの多様なアプリケーションに非常に関心がある。
可変オートエンコーダ(VAE)のような深層生成モデルは、元のデータからこのような合成データセットを作成するための一般的なアプローチである。
vaesの成功にもかかわらず、バイモーダル分布と歪曲限界分布に関しては制限がある。
これらは、VAEの潜在表現に典型的に使用される正規性仮定によって促進される一元対称分布から逸脱する。
潜在空間に他の分布を仮定する拡張があるが、多くの異なる分布を持つデータに対する柔軟性は一般的には向上しない。
そこで,本研究では,プリトランスフォーメーションを元の変数のレベルで利用することにより,バイモーダルデータとスキューデータに対処する新しい手法であるPTVAEを提案する。
データセットの各変数に対するパラメータ最適化によって、データを正規分布に近づけるために、2種類の変換が使用される。
本手法の性能を合成データ生成のための他の最先端手法と比較する。
視覚的な比較に加えて, 定量的評価に有用性測定を用いる。
その結果、PTVAEアプローチはバイモーダルデータとスキューデータの両方において他よりも優れていることがわかった。
さらに、このアプローチの単純さにより、VAEの他の拡張と組み合わせて使用することができる。
関連論文リスト
- Robust training of implicit generative models for multivariate and heavy-tailed distributions with an invariant statistical loss [0.4249842620609682]
我々は、引用2024トレーニングで導入されたISL(textitinvariant statistics loss)法に基づいて構築する。
重み付きおよび多変量データ分散を扱うように拡張する。
ジェネレーティブ・ジェネレーティブ・モデリングにおけるその性能を評価し、ジェネレーティブ・ディバイサル・ネットワーク(GAN)の事前学習技術としての可能性を探る。
論文 参考訳(メタデータ) (2024-10-29T10:27:50Z) - TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。
本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。
我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文 参考訳(メタデータ) (2024-04-12T12:31:06Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Improving Out-of-Distribution Robustness of Classifiers via Generative
Interpolation [56.620403243640396]
ディープニューラルネットワークは、独立かつ同一に分散されたデータ(すなわち、d)から学習する上で、優れたパフォーマンスを達成する。
しかし、アウト・オブ・ディストリビューション(OoD)データを扱う場合、その性能は著しく低下する。
多様なOoDサンプルを合成するために,複数のドメインから学習した生成モデルを融合するための生成補間法(Generative Interpolation)を開発した。
論文 参考訳(メタデータ) (2023-07-23T03:53:53Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Personalized Federated Learning under Mixture of Distributions [98.25444470990107]
本稿では,ガウス混合モデル(GMM)を用いたPFL(Personalized Federated Learning)を提案する。
FedGMMはオーバーヘッドを最小限に抑え、新しいクライアントに適応する付加的なアドバンテージを持ち、不確実な定量化を可能にします。
PFL分類と新しいサンプル検出の両方において, 合成データセットとベンチマークデータセットの実証評価により, 提案手法の優れた性能を示した。
論文 参考訳(メタデータ) (2023-05-01T20:04:46Z) - RENs: Relevance Encoding Networks [0.0]
本稿では,遅延空間に先行する自動相対性決定(ARD)を用いて,データ固有のボトルネック次元を学習する新しい確率的VOEベースのフレームワークであるrelevance encoding network (RENs)を提案する。
提案モデルは,サンプルの表現や生成品質を損なうことなく,関連性のあるボトルネック次元を学習することを示す。
論文 参考訳(メタデータ) (2022-05-25T21:53:48Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - VAEM: a Deep Generative Model for Heterogeneous Mixed Type Data [16.00692074660383]
VAEMは2段階的に訓練された深層生成モデルである。
VAEMは、深層生成モデルをうまく展開できる現実世界のアプリケーションの範囲を広げることを示す。
論文 参考訳(メタデータ) (2020-06-21T23:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。