論文の概要: CTAB-GAN+: Enhancing Tabular Data Synthesis
- arxiv url: http://arxiv.org/abs/2204.00401v1
- Date: Fri, 1 Apr 2022 12:52:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 14:36:59.602313
- Title: CTAB-GAN+: Enhancing Tabular Data Synthesis
- Title(参考訳): CTAB-GAN+: 語彙データ合成の強化
- Authors: Zilong Zhao, Aditya Kunar, Robert Birke and Lydia Y. Chen
- Abstract要約: CTAB-GAN+は、高機能な合成データドメインのための条件付きGANに下流損失を追加することにより、最先端のGANを改善する。
CTAB-GAN+は、複数のデータセットと異なるプライバシー予算下での学習タスクに対して、少なくとも48.16%高いユーティリティで、プライバシ保存データを合成する。
- 参考スコア(独自算出の注目度): 11.813626861559904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While data sharing is crucial for knowledge development, privacy concerns and
strict regulation (e.g., European General Data Protection Regulation (GDPR))
limit its full effectiveness. Synthetic tabular data emerges as alternative to
enable data sharing while fulfilling regulatory and privacy constraints.
State-of-the-art tabular data synthesizers draw methodologies from Generative
Adversarial Networks (GAN). As GANs improve the synthesized data increasingly
resemble the real data risking to leak privacy. Differential privacy (DP)
provides theoretical guarantees on privacy loss but degrades data utility.
Striking the best trade-off remains yet a challenging research question. We
propose CTAB-GAN+ a novel conditional tabular GAN. CTAB-GAN+ improves upon
state-of-the-art by (i) adding downstream losses to conditional GANs for higher
utility synthetic data in both classification and regression domains; (ii)
using Wasserstein loss with gradient penalty for better training convergence;
(iii) introducing novel encoders targeting mixed continuous-categorical
variables and variables with unbalanced or skewed data; and (iv) training with
DP stochastic gradient descent to impose strict privacy guarantees. We
extensively evaluate CTAB-GAN+ on data similarity and analysis utility against
state-of-the-art tabular GANs. The results show that CTAB-GAN+ synthesizes
privacy-preserving data with at least 48.16% higher utility across multiple
datasets and learning tasks under different privacy budgets.
- Abstract(参考訳): データ共有は知識開発に不可欠であるが、プライバシーの懸念と厳格な規制(例えば、欧州一般データ保護規則(GDPR))は、その完全な有効性を制限している。
合成表データは、規制とプライバシーの制約を満たしながらデータ共有を可能にする代替手段として出現する。
最先端の表型データシンセサイザーは、gan(generative adversarial networks)から方法論を引き出す。
合成データを改良するGANは、プライバシーを漏らそうとする真のデータに、ますます似ている。
差分プライバシー(DP)は、プライバシー損失に関する理論的保証を提供するが、データユーティリティを劣化させる。
最高のトレードオフの達成はまだ難しい研究課題である。
我々はCTAB-GAN+を新しい条件付き表型GANとして提案する。
CTAB-GAN+による最先端化
(i)分類及び回帰ドメインの双方において高機能な合成データのために条件付きganに下流損失を加えること。
(ii)より良い訓練収束のための勾配ペナルティ付きワッサースタイン損失の使用
(iii)不均衡データ又は歪データを有する混合連続類型変数及び変数を対象とする新規エンコーダの導入
(4)厳格なプライバシー保証を課すため、DP確率勾配降下による訓練。
我々はCTAB-GAN+を、最先端の表状GANに対するデータ類似性と分析ユーティリティで広範囲に評価した。
結果は、CTAB-GAN+が、複数のデータセットと異なるプライバシー予算下での学習タスクに対して、少なくとも48.16%高いユーティリティでプライバシー保護データを合成していることを示している。
関連論文リスト
- Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - VFLGAN: Vertical Federated Learning-based Generative Adversarial Network for Vertically Partitioned Data Publication [16.055684281505474]
本稿では,垂直分割型データパブリッシングのための垂直フェデレート学習に基づく生成広告ネットワーク,VFLGANを提案する。
VFLGANが生成した合成データセットの品質は、VertiGANが生成したデータセットの3.2倍である。
また,合成データセットによるプライバシー漏洩を推定するために,会員推定攻撃を適用した実践的な監査手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T12:25:41Z) - Quantifying and Mitigating Privacy Risks for Tabular Generative Models [13.153278585144355]
生成モデルからの合成データは、プライバシを保存するデータ共有ソリューションとして現れる。
本稿では,DP-TLDM,差分プライベートタブララプレント拡散モデルを提案する。
DP-TLDMは, 平均データ類似度35%, 下流タスク用ユーティリティ15%, データの識別性50%で, 合成品質の向上を図っている。
論文 参考訳(メタデータ) (2024-03-12T17:27:49Z) - Privacy Amplification for the Gaussian Mechanism via Bounded Support [64.86780616066575]
インスタンスごとの差分プライバシー(pDP)やフィッシャー情報損失(FIL)といったデータ依存のプライバシ会計フレームワークは、固定されたトレーニングデータセット内の個人に対してきめ細かいプライバシー保証を提供する。
本稿では,データ依存会計下でのプライバシ保証を向上することを示すとともに,バウンドサポートによるガウス機構の簡単な修正を提案する。
論文 参考訳(メタデータ) (2024-03-07T21:22:07Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Effective and Privacy preserving Tabular Data Synthesizing [0.0]
複雑な分布を持つ多種多様なデータ型をモデル化できる新しい条件付きテーブルGANアーキテクチャを開発した。
我々は、厳格なプライバシー保証でCTAB-GANをトレーニングし、悪意のあるプライバシー攻撃に対してGANをトレーニングするためのセキュリティを強化する。
論文 参考訳(メタデータ) (2021-08-11T13:55:48Z) - DTGAN: Differential Private Training for Tabular GANs [6.174448419090292]
本稿では,DTGAN_GとDTGAN_Dの2つの変種からなる条件付きワッサースタインGANであるDTGANを提案する。
我々は,DPの理論的プライバシー保証を,メンバーシップや属性推論攻撃に対して実証的に評価する。
その結果,DP-SGD フレームワークは PATE よりも優れており,DP 判別器の方が訓練収束に最適であることが示唆された。
論文 参考訳(メタデータ) (2021-07-06T10:28:05Z) - CTAB-GAN: Effective Table Data Synthesizing [7.336728307626645]
多様なデータ型をモデル化できる条件付きテーブルGANアーキテクチャCTAB-GANを開発。
CTAB-GANは3種類の変数の実際のデータに非常に似ており、5つの機械学習アルゴリズムの精度が17%向上したことを示しています。
論文 参考訳(メタデータ) (2021-02-16T18:53:57Z) - CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for
Natural Language Understanding [67.61357003974153]
我々はCoDAと呼ばれる新しいデータ拡張フレームワークを提案する。
CoDAは、複数の変換を有機的に統合することで、多種多様な情報付加例を合成する。
すべてのデータサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。
論文 参考訳(メタデータ) (2020-10-16T23:57:03Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。