論文の概要: Copula Flows for Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2101.00598v1
- Date: Sun, 3 Jan 2021 10:06:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 11:39:48.318551
- Title: Copula Flows for Synthetic Data Generation
- Title(参考訳): 合成データ生成のためのコプラ流
- Authors: Sanket Kamthe, Samuel Assefa, Marc Deisenroth
- Abstract要約: 確率モデルを合成データ生成器として用いることを提案する。
密度推定の手法として,シミュレーションと実データの両方をベンチマークした。
- 参考スコア(独自算出の注目度): 0.5801044612920815
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The ability to generate high-fidelity synthetic data is crucial when
available (real) data is limited or where privacy and data protection standards
allow only for limited use of the given data, e.g., in medical and financial
data-sets. Current state-of-the-art methods for synthetic data generation are
based on generative models, such as Generative Adversarial Networks (GANs).
Even though GANs have achieved remarkable results in synthetic data generation,
they are often challenging to interpret.Furthermore, GAN-based methods can
suffer when used with mixed real and categorical variables.Moreover, loss
function (discriminator loss) design itself is problem specific, i.e., the
generative model may not be useful for tasks it was not explicitly trained for.
In this paper, we propose to use a probabilistic model as a synthetic data
generator. Learning the probabilistic model for the data is equivalent to
estimating the density of the data. Based on the copula theory, we divide the
density estimation task into two parts, i.e., estimating univariate marginals
and estimating the multivariate copula density over the univariate marginals.
We use normalising flows to learn both the copula density and univariate
marginals. We benchmark our method on both simulated and real data-sets in
terms of density estimation as well as the ability to generate high-fidelity
synthetic data
- Abstract(参考訳): 高忠実な合成データを生成する能力は、利用可能な(現実の)データが限られている場合や、プライバシーやデータ保護の基準が与えられたデータ(例えば医療や金融のデータセット)の限られた使用のみを許す場合に重要である。
合成データ生成の最先端技術は、GAN(Generative Adversarial Networks)のような生成モデルに基づいている。
さらに、ganベースの手法は、実変数とカテゴリ変数の混合で使用すると、苦しむことがある。さらに、損失関数(判別器の損失)設計自体が問題に特化しており、つまり、生成モデルは、明示的に訓練されていないタスクには役に立たないかもしれない。
本稿では,確率モデルを用いた合成データ生成手法を提案する。
データの確率モデルを学ぶことは、データの密度を推定することと同値である。
コプラ理論に基づいて、密度推定タスクを2つの部分、すなわち、一変量辺りの推定と多変量辺りの多変量辺縁密度の推定に分割する。
正規化フローを用いて、コプラ密度と一変量境界の両方を学習する。
本手法は, 密度推定と高忠実度合成データ生成の両面で, シミュレーションデータと実データの両方に対してベンチマークを行う。
関連論文リスト
- Marginal Causal Flows for Validation and Inference [3.547529079746247]
複雑なデータから得られる結果に対する介入の限界因果効果を調べることは依然として困難である。
Frugal Flowsは、正規化フローを使用してデータ生成過程を柔軟に学習する新しい確率ベース機械学習モデルである。
シミュレーションと実世界の両方のデータセットで実験を行った。
論文 参考訳(メタデータ) (2024-11-02T16:04:57Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Generative Modeling for Tabular Data via Penalized Optimal Transport
Network [2.0319002824093015]
Wasserstein generative adversarial network (WGAN) は、生成モデルにおいて顕著な改善である。
本稿では,新しい,頑健で解釈可能な辺縁補償型Wasserstein(MPW)損失に基づく生成型ディープニューラルネットワークPOTNetを提案する。
論文 参考訳(メタデータ) (2024-02-16T05:27:05Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Improving the quality of generative models through Smirnov
transformation [1.3492000366723798]
本稿では,ジェネレータの出力として使用される新しいアクティベーション関数を提案する。
これはスミルノフ確率変換に基づいており、生成されたデータの品質を改善するために特別に設計されている。
論文 参考訳(メタデータ) (2021-10-29T17:01:06Z) - DECAF: Generating Fair Synthetic Data Using Causally-Aware Generative
Networks [71.6879432974126]
本稿では,GANに基づく表型データのための公正な合成データ生成装置であるDECAFを紹介する。
DeCAFは望ましくないバイアスを除去し,高品質な合成データを生成可能であることを示す。
下流モデルの収束と公平性に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2021-10-25T12:39:56Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - Causal-TGAN: Generating Tabular Data Using Causal Generative Adversarial
Networks [7.232789848964222]
因果モデルCausal Tabular Generative Neural Network (Causal-TGAN) を提案し,合成データを生成する。
シミュレーションデータセットと実データセットの両方の実験により,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2021-04-21T17:59:41Z) - TraDE: Transformers for Density Estimation [101.20137732920718]
TraDEは自己回帰密度推定のための自己アテンションに基づくアーキテクチャである。
本稿では, 生成したサンプルを用いた回帰, 分布外検出, トレーニングデータにおける雑音に対する頑健性などのタスクについて述べる。
論文 参考訳(メタデータ) (2020-04-06T07:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。