論文の概要: Causal-TGAN: Generating Tabular Data Using Causal Generative Adversarial
Networks
- arxiv url: http://arxiv.org/abs/2104.10680v1
- Date: Wed, 21 Apr 2021 17:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 14:34:49.322102
- Title: Causal-TGAN: Generating Tabular Data Using Causal Generative Adversarial
Networks
- Title(参考訳): causal-tgan:causal generative adversarial networkを用いた表データ生成
- Authors: Bingyang Wen, Luis Oliveros Colon, K.P. Subbalakshmi and R.
Chandramouli
- Abstract要約: 因果モデルCausal Tabular Generative Neural Network (Causal-TGAN) を提案し,合成データを生成する。
シミュレーションデータセットと実データセットの両方の実験により,本手法の優れた性能が示された。
- 参考スコア(独自算出の注目度): 7.232789848964222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic data generation becomes prevalent as a solution to privacy leakage
and data shortage. Generative models are designed to generate a realistic
synthetic dataset, which can precisely express the data distribution for the
real dataset. The generative adversarial networks (GAN), which gain great
success in the computer vision fields, are doubtlessly used for synthetic data
generation. Though there are prior works that have demonstrated great progress,
most of them learn the correlations in the data distributions rather than the
true processes in which the datasets are naturally generated. Correlation is
not reliable for it is a statistical technique that only tells linear
dependencies and is easily affected by the dataset's bias. Causality, which
encodes all underlying factors of how the real data be naturally generated, is
more reliable than correlation. In this work, we propose a causal model named
Causal Tabular Generative Neural Network (Causal-TGAN) to generate synthetic
tabular data using the tabular data's causal information. Extensive experiments
on both simulated datasets and real datasets demonstrate the better performance
of our method when given the true causal graph and a comparable performance
when using the estimated causal graph.
- Abstract(参考訳): プライバシーの漏洩とデータ不足の解決策として、合成データ生成が普及する。
生成モデルは、実際のデータセットのデータ分布を正確に表現できる、現実的な合成データセットを生成するように設計されている。
コンピュータビジョンの分野で大きな成功を収めたgenerative adversarial networks(gan)は、間違いなく合成データ生成に使われている。
先行研究では大きな進展が見られたが、そのほとんどはデータセットが自然に生成される真のプロセスではなく、データ分布の相関関係を学習している。
相関は信頼できないが、線形依存関係のみを指示し、データセットのバイアスに影響を受けやすい統計手法である。
因果関係(Causality)は、実際のデータがどのように自然に生成されるかという基本的な要素をすべてエンコードするものであり、相関よりも信頼性が高い。
そこで本研究では,表データの因果情報を用いて合成表データを生成するための因果モデルCausal Tabular Generative Neural Network (Causal-TGAN)を提案する。
シミュレーションデータセットと実データセットの両方に対する広範な実験は、真の因果グラフが与えられた場合のより良い性能と、推定因果グラフを使用する場合の同等の性能を示す。
関連論文リスト
- Marginal Causal Flows for Validation and Inference [3.547529079746247]
複雑なデータから得られる結果に対する介入の限界因果効果を調べることは依然として困難である。
Frugal Flowsは、正規化フローを使用してデータ生成過程を柔軟に学習する新しい確率ベース機械学習モデルである。
シミュレーションと実世界の両方のデータセットで実験を行った。
論文 参考訳(メタデータ) (2024-11-02T16:04:57Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。
具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。
また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T10:49:56Z) - Fake It Till Make It: Federated Learning with Consensus-Oriented
Generation [52.82176415223988]
コンセンサス指向生成による連合学習(FedCOG)を提案する。
FedCOGは、補完的なデータ生成と知識蒸留に基づくモデルトレーニングという、クライアント側の2つの重要なコンポーネントで構成されています。
古典的および実世界のFLデータセットの実験は、FedCOGが一貫して最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2023-12-10T18:49:59Z) - CasTGAN: Cascaded Generative Adversarial Network for Realistic Tabular
Data Synthesis [0.4999814847776097]
近年,GAN(Generative Adversarial Network)が注目されている。
合成データの妥当性と基礎となるプライバシーに関する懸念は、十分に対処されていない主要な課題を表している。
論文 参考訳(メタデータ) (2023-07-01T16:52:18Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Boosting Synthetic Data Generation with Effective Nonlinear Causal
Discovery [11.81479419498206]
ソフトウェアテスト、データプライバシ、不均衡学習、人工知能の説明では、もっともらしいデータサンプルを生成することが不可欠である。
データ生成に広く使用されるアプローチの一般的な前提は、機能の独立性である。
本稿では,変数間の非線形因果関係を発見し,生成時に利用する合成データセット生成手法を提案する。
論文 参考訳(メタデータ) (2023-01-18T10:54:06Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Federated Causal Discovery [74.37739054932733]
本稿では,DAG-Shared Federated Causal Discovery (DS-FCD) という勾配学習フレームワークを開発する。
ローカルデータに直接触れることなく因果グラフを学習し、データの不均一性を自然に扱うことができる。
合成および実世界の両方のデータセットに対する大規模な実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2021-12-07T08:04:12Z) - Copula Flows for Synthetic Data Generation [0.5801044612920815]
確率モデルを合成データ生成器として用いることを提案する。
密度推定の手法として,シミュレーションと実データの両方をベンチマークした。
論文 参考訳(メタデータ) (2021-01-03T10:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。