論文の概要: Effective and Privacy preserving Tabular Data Synthesizing
- arxiv url: http://arxiv.org/abs/2108.10064v1
- Date: Wed, 11 Aug 2021 13:55:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-29 12:10:35.878196
- Title: Effective and Privacy preserving Tabular Data Synthesizing
- Title(参考訳): 有効かつプライバシーを保った表型データ合成
- Authors: Aditya Kunar
- Abstract要約: 複雑な分布を持つ多種多様なデータ型をモデル化できる新しい条件付きテーブルGANアーキテクチャを開発した。
我々は、厳格なプライバシー保証でCTAB-GANをトレーニングし、悪意のあるプライバシー攻撃に対してGANをトレーニングするためのセキュリティを強化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While data sharing is crucial for knowledge development, privacy concerns and
strict regulation (e.g., European General Data Protection Regulation (GDPR))
unfortunately limits its full effectiveness. Synthetic tabular data emerges as
an alternative to enable data sharing while fulfilling regulatory and privacy
constraints. The state-of-the-art tabular data synthesizers draw methodologies
from Generative Adversarial Networks (GAN). In this thesis, we develop
CTAB-GAN, a novel conditional table GAN architecture that can effectively model
diverse data types with complex distributions. CTAB-GAN is extensively
evaluated with the state of the art GANs that generate synthetic tables, in
terms of data similarity and analysis utility. The results on five datasets
show that the synthetic data of CTAB-GAN remarkably resembles the real data for
all three types of variables and results in higher accuracy for five machine
learning algorithms, by up to 17%.
Additionally, to ensure greater security for training tabular GANs against
malicious privacy attacks, differential privacy (DP) is studied and used to
train CTAB-GAN with strict privacy guarantees. DP-CTAB-GAN is rigorously
evaluated using state-of-the-art DP-tabular GANs in terms of data utility and
privacy robustness against membership and attribute inference attacks. Our
results on three datasets indicate that strict theoretical differential privacy
guarantees come only after severely affecting data utility. However, it is
shown empirically that these guarantees help provide a stronger defence against
privacy attacks. Overall, it is found that DP-CTABGAN is capable of being
robust to privacy attacks while maintaining the highest data utility as
compared to prior work, by up to 18% in terms of the average precision score.
- Abstract(参考訳): データ共有は知識開発において不可欠であるが、プライバシー問題や厳格な規制(例えば、欧州一般データ保護規則(GDPR))は残念ながらその完全な有効性を制限している。
合成表データは、規制とプライバシーの制約を満たしながらデータ共有を可能にする代替手段として出現する。
最先端の表形式データシンセサイザーは、GAN(Generative Adversarial Networks)から方法論を描画する。
本稿では,複雑な分布を持つ多様なデータ型を効果的にモデル化できる条件付きテーブルGANアーキテクチャであるCTAB-GANを開発する。
CTAB-GANは、データ類似性と分析ユーティリティの観点から、合成テーブルを生成するアートGANの状態を広範囲に評価する。
5つのデータセットの結果は、CTAB-GANの合成データが3種類の変数の実際のデータと著しく似ており、5つの機械学習アルゴリズムの精度が最大17%向上していることを示している。
さらに,悪意のあるプライバシ攻撃に対するテーブル型ganのトレーニングに関するセキュリティ向上を確保するために,差分プライバシー(dp)を研究し,厳格なプライバシ保証によるctab-ganのトレーニングに使用する。
DP-CTAB-GANは、データユーティリティと、メンバーシップや属性推論攻撃に対するプライバシーの堅牢性の観点から、最先端のDP-tabular GANを用いて厳格に評価されている。
3つのデータセットの結果から、厳密な理論上の差分プライバシー保証は、データユーティリティに深刻な影響を及ぼした後にのみ得られることが示された。
しかし、これらの保証がプライバシー攻撃に対するより強力な防御に役立つことを実証的に示している。
総じて,dp-ctabganは,プライバシ攻撃に対して頑健でありながら,従来よりも高いデータユーティリティを維持しつつ,平均精度スコアで最大18%の信頼性を有することがわかった。
関連論文リスト
- Quantifying and Mitigating Privacy Risks for Tabular Generative Models [13.153278585144355]
生成モデルからの合成データは、プライバシを保存するデータ共有ソリューションとして現れる。
本稿では,DP-TLDM,差分プライベートタブララプレント拡散モデルを提案する。
DP-TLDMは, 平均データ類似度35%, 下流タスク用ユーティリティ15%, データの識別性50%で, 合成品質の向上を図っている。
論文 参考訳(メタデータ) (2024-03-12T17:27:49Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Privacy Amplification for the Gaussian Mechanism via Bounded Support [64.86780616066575]
インスタンスごとの差分プライバシー(pDP)やフィッシャー情報損失(FIL)といったデータ依存のプライバシ会計フレームワークは、固定されたトレーニングデータセット内の個人に対してきめ細かいプライバシー保証を提供する。
本稿では,データ依存会計下でのプライバシ保証を向上することを示すとともに,バウンドサポートによるガウス機構の簡単な修正を提案する。
論文 参考訳(メタデータ) (2024-03-07T21:22:07Z) - TernaryVote: Differentially Private, Communication Efficient, and
Byzantine Resilient Distributed Optimization on Heterogeneous Data [50.797729676285876]
本稿では, 3次圧縮機と多数決機構を組み合わせて, 差分プライバシー, 勾配圧縮, ビザンチンレジリエンスを同時に実現するternaryVoteを提案する。
提案アルゴリズムのF差分プライバシー(DP)とビザンチンレジリエンスのレンズによるプライバシー保証を理論的に定量化する。
論文 参考訳(メタデータ) (2024-02-16T16:41:14Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [52.5766244206855]
本稿では,セマンティックセグメンテーションにおける信頼性を評価するために,データの自動合成を行う最先端生成モデルに挑戦する。
安定拡散を微調整することにより、OODドメインやOODオブジェクトに塗布された合成データのゼロショット生成を行う。
我々は,合成データの性能と実OODデータの性能との間に高い相関関係を示し,妥当性を示す。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - DP2-Pub: Differentially Private High-Dimensional Data Publication with
Invariant Post Randomization [58.155151571362914]
本稿では,2つのフェーズで動作する差分プライベートな高次元データパブリッシング機構(DP2-Pub)を提案する。
属性をクラスタ内凝集度の高い低次元クラスタに分割し、クラスタ間の結合度を低くすることで、適切なプライバシ予算を得ることができる。
また、DP2-Pubメカニズムを、ローカルの差分プライバシーを満たす半正直なサーバでシナリオに拡張します。
論文 参考訳(メタデータ) (2022-08-24T17:52:43Z) - CTAB-GAN+: Enhancing Tabular Data Synthesis [11.813626861559904]
CTAB-GAN+は、高機能な合成データドメインのための条件付きGANに下流損失を追加することにより、最先端のGANを改善する。
CTAB-GAN+は、複数のデータセットと異なるプライバシー予算下での学習タスクに対して、少なくとも48.16%高いユーティリティで、プライバシ保存データを合成する。
論文 参考訳(メタデータ) (2022-04-01T12:52:30Z) - DTGAN: Differential Private Training for Tabular GANs [6.174448419090292]
本稿では,DTGAN_GとDTGAN_Dの2つの変種からなる条件付きワッサースタインGANであるDTGANを提案する。
我々は,DPの理論的プライバシー保証を,メンバーシップや属性推論攻撃に対して実証的に評価する。
その結果,DP-SGD フレームワークは PATE よりも優れており,DP 判別器の方が訓練収束に最適であることが示唆された。
論文 参考訳(メタデータ) (2021-07-06T10:28:05Z) - CTAB-GAN: Effective Table Data Synthesizing [7.336728307626645]
多様なデータ型をモデル化できる条件付きテーブルGANアーキテクチャCTAB-GANを開発。
CTAB-GANは3種類の変数の実際のデータに非常に似ており、5つの機械学習アルゴリズムの精度が17%向上したことを示しています。
論文 参考訳(メタデータ) (2021-02-16T18:53:57Z) - Synthesizing Property & Casualty Ratemaking Datasets using Generative
Adversarial Networks [2.2649197740853677]
秘密のオリジナルデータセットから合成保険データセットを構築することができるGAN(Generative Adversarial Network)の3種類の設計方法を示す。
透明性のために、これらのアプローチは、公開データセット、フランスのモーターサードパーティの負債データを使って説明されている。
MC-WGAN-GPは最良のデータを合成し、CTGANは最も使いやすく、MNCDP-GANは差分プライバシーを保証する。
論文 参考訳(メタデータ) (2020-08-13T21:02:44Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。