論文の概要: CTAB-GAN: Effective Table Data Synthesizing
- arxiv url: http://arxiv.org/abs/2102.08369v1
- Date: Tue, 16 Feb 2021 18:53:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 14:59:18.774211
- Title: CTAB-GAN: Effective Table Data Synthesizing
- Title(参考訳): CTAB-GAN: 効率的なテーブルデータ合成
- Authors: Zilong Zhao, Aditya Kunar, Hiek Van der Scheer, Robert Birke and Lydia
Y. Chen
- Abstract要約: 多様なデータ型をモデル化できる条件付きテーブルGANアーキテクチャCTAB-GANを開発。
CTAB-GANは3種類の変数の実際のデータに非常に似ており、5つの機械学習アルゴリズムの精度が17%向上したことを示しています。
- 参考スコア(独自算出の注目度): 7.336728307626645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While data sharing is crucial for knowledge development, privacy concerns and
strict regulation (e.g., European General Data Protection Regulation (GDPR))
unfortunately limit its full effectiveness. Synthetic tabular data emerges as
an alternative to enable data sharing while fulfilling regulatory and privacy
constraints. The state-of-the-art tabular data synthesizers draw methodologies
from generative Adversarial Networks (GAN) and address two main data types in
the industry, i.e., continuous and categorical. In this paper, we develop
CTAB-GAN, a novel conditional table GAN architecture that can effectively model
diverse data types, including a mix of continuous and categorical variables.
Moreover, we address data imbalance and long-tail issues, i.e., certain
variables have drastic frequency differences across large values. To achieve
those aims, we first introduce the information loss and classification loss to
the conditional GAN. Secondly, we design a novel conditional vector, which
efficiently encodes the mixed data type and skewed distribution of data
variable. We extensively evaluate CTAB-GAN with the state of the art GANs that
generate synthetic tables, in terms of data similarity and analysis utility.
The results on five datasets show that the synthetic data of CTAB-GAN
remarkably resembles the real data for all three types of variables and results
into higher accuracy for five machine learning algorithms, by up to 17%.
- Abstract(参考訳): データ共有は知識開発には不可欠であるが、プライバシーの懸念と厳格な規制(例えば、欧州一般データ保護規則(GDPR))は残念ながらその完全な有効性を制限している。
合成表データは、規制とプライバシの制約を満たしながらデータ共有を可能にする代替手段として出現する。
最先端の表形式のデータシンセサイザーは、ジェネレーティブ・アドバイサル・ネットワーク(GAN)から方法論を描き、業界における2つの主要なデータタイプ、すなわち連続性とカテゴリーに対処する。
本稿では、連続変数と分類変数の混合を含む多様なデータ型を効果的にモデル化できる新しい条件表GANアーキテクチャであるCTAB-GANを開発する。
さらに、データ不均衡や長い尾の問題、すなわち、大きな値間で大きな周波数差を持つ変数に対処する。
これらの目的を達成するために、まず条件付きGANに情報損失と分類損失を導入する。
第2に,データ変数の混合型と歪んだ分布を効率的に符号化する条件ベクトルを設計する。
データ類似性と分析ユーティリティの観点からctab-ganを合成テーブルを生成する技術ganの状態を広範囲に評価した。
5つのデータセットの結果は、CTAB-GANの合成データが3種類の変数の実際のデータと著しく類似していることを示し、5つの機械学習アルゴリズムの精度を最大17%向上させた。
関連論文リスト
- Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - FCT-GAN: Enhancing Table Synthesis via Fourier Transform [13.277332691308395]
合成データは、例えば、一般データ保護規則(General Data Protection Regulation)を遵守しながら、知識を共有する代替手段として出現する。
本稿では,トランスジェネレータと識別器を構築するために,特徴トークン化とフーリエネットワークを導入し,コラム間の局所的およびグローバルな依存関係をキャプチャする。
論文 参考訳(メタデータ) (2022-10-12T14:25:29Z) - Improving Correlation Capture in Generating Imbalanced Data using
Differentially Private Conditional GANs [2.2265840715792735]
DP-CGANSは,データ変換,サンプリング,コンディショニング,ネットワークトレーニングにより,現実的かつプライバシ保護データを生成する,微分プライベートな条件付きGANフレームワークである。
統計的類似性,機械学習性能,プライバシ測定の点から,3つの公開データセットと2つの実世界の個人健康データセットの最先端生成モデルを用いて,我々のモデルを広範囲に評価した。
論文 参考訳(メタデータ) (2022-06-28T06:47:27Z) - CTAB-GAN+: Enhancing Tabular Data Synthesis [11.813626861559904]
CTAB-GAN+は、高機能な合成データドメインのための条件付きGANに下流損失を追加することにより、最先端のGANを改善する。
CTAB-GAN+は、複数のデータセットと異なるプライバシー予算下での学習タスクに対して、少なくとも48.16%高いユーティリティで、プライバシ保存データを合成する。
論文 参考訳(メタデータ) (2022-04-01T12:52:30Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Federated Causal Discovery [74.37739054932733]
本稿では,DAG-Shared Federated Causal Discovery (DS-FCD) という勾配学習フレームワークを開発する。
ローカルデータに直接触れることなく因果グラフを学習し、データの不均一性を自然に扱うことができる。
合成および実世界の両方のデータセットに対する大規模な実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2021-12-07T08:04:12Z) - Effective and Privacy preserving Tabular Data Synthesizing [0.0]
複雑な分布を持つ多種多様なデータ型をモデル化できる新しい条件付きテーブルGANアーキテクチャを開発した。
我々は、厳格なプライバシー保証でCTAB-GANをトレーニングし、悪意のあるプライバシー攻撃に対してGANをトレーニングするためのセキュリティを強化する。
論文 参考訳(メタデータ) (2021-08-11T13:55:48Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z) - CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for
Natural Language Understanding [67.61357003974153]
我々はCoDAと呼ばれる新しいデータ拡張フレームワークを提案する。
CoDAは、複数の変換を有機的に統合することで、多種多様な情報付加例を合成する。
すべてのデータサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。
論文 参考訳(メタデータ) (2020-10-16T23:57:03Z) - Synthesizing Property & Casualty Ratemaking Datasets using Generative
Adversarial Networks [2.2649197740853677]
秘密のオリジナルデータセットから合成保険データセットを構築することができるGAN(Generative Adversarial Network)の3種類の設計方法を示す。
透明性のために、これらのアプローチは、公開データセット、フランスのモーターサードパーティの負債データを使って説明されている。
MC-WGAN-GPは最良のデータを合成し、CTGANは最も使いやすく、MNCDP-GANは差分プライバシーを保証する。
論文 参考訳(メタデータ) (2020-08-13T21:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。