論文の概要: Quantifying and Mitigating Privacy Risks for Tabular Generative Models
- arxiv url: http://arxiv.org/abs/2403.07842v1
- Date: Tue, 12 Mar 2024 17:27:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 19:45:45.262717
- Title: Quantifying and Mitigating Privacy Risks for Tabular Generative Models
- Title(参考訳): 語彙生成モデルのプライバシーリスクの定量化と緩和
- Authors: Chaoyi Zhu, Jiayi Tang, Hans Brouwer, Juan F. P\'erez, Marten van
Dijk, Lydia Y. Chen
- Abstract要約: 生成モデルからの合成データは、プライバシを保存するデータ共有ソリューションとして現れる。
本稿では,DP-TLDM,差分プライベートタブララプレント拡散モデルを提案する。
DP-TLDMは, 平均データ類似度35%, 下流タスク用ユーティリティ15%, データの識別性50%で, 合成品質の向上を図っている。
- 参考スコア(独自算出の注目度): 13.153278585144355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data from generative models emerges as the privacy-preserving
data-sharing solution. Such a synthetic data set shall resemble the original
data without revealing identifiable private information. The backbone
technology of tabular synthesizers is rooted in image generative models,
ranging from Generative Adversarial Networks (GANs) to recent diffusion models.
Recent prior work sheds light on the utility-privacy tradeoff on tabular data,
revealing and quantifying privacy risks on synthetic data. We first conduct an
exhaustive empirical analysis, highlighting the utility-privacy tradeoff of
five state-of-the-art tabular synthesizers, against eight privacy attacks, with
a special focus on membership inference attacks. Motivated by the observation
of high data quality but also high privacy risk in tabular diffusion, we
propose DP-TLDM, Differentially Private Tabular Latent Diffusion Model, which
is composed of an autoencoder network to encode the tabular data and a latent
diffusion model to synthesize the latent tables. Following the emerging f-DP
framework, we apply DP-SGD to train the auto-encoder in combination with batch
clipping and use the separation value as the privacy metric to better capture
the privacy gain from DP algorithms. Our empirical evaluation demonstrates that
DP-TLDM is capable of achieving a meaningful theoretical privacy guarantee
while also significantly enhancing the utility of synthetic data. Specifically,
compared to other DP-protected tabular generative models, DP-TLDM improves the
synthetic quality by an average of 35% in data resemblance, 15% in the utility
for downstream tasks, and 50% in data discriminability, all while preserving a
comparable level of privacy risk.
- Abstract(参考訳): 生成モデルからの合成データが、プライバシ保存データ共有ソリューションとして現れる。
このような合成データセットは,識別可能なプライベート情報を明らかにすることなく,元のデータに類似する。
表型シンセサイザーのバックボーン技術は画像生成モデルに根ざしており、gans(generative adversarial network)から最近の拡散モデルまで幅広い。
最近の作業は、表データのユーティリティプライバシトレードオフに光を当て、合成データのプライバシーリスクを明らかにし、定量化する。
まず,8つのプライバシ攻撃に対する5つの最先端のタブラシンセサイザーの実用的プライバシトレードオフに注目し,会員推測攻撃に特化して,徹底的な実証分析を行った。
グラフ表拡散における高いデータ品質と高いプライバシーリスクを考慮に入れたDP-TLDM,differially Private Tabular Latent Diffusion Modelを提案し,表表データを符号化するオートエンコーダネットワークと潜時拡散モデルを用いて潜在表を合成する。
新たなf-DPフレームワークに続いて,DP-SGDを適用して自動エンコーダとバッチクリッピングを併用し,分離値をプライバシ指標として利用することにより,DPアルゴリズムのプライバシゲインをより正確に把握する。
実験により,DP-TLDMは有意義な理論的プライバシー保証を達成できると同時に,合成データの有用性を大幅に向上できることを示した。
具体的には、DP-TLDMは、他のDP保護表生成モデルと比較して、データ類似性の平均35%、ダウンストリームタスクのユーティリティの15%、データの識別可能性の50%で合成品質を改善する。
関連論文リスト
- Differentially Private Non Parametric Copulas: Generating synthetic data with non parametric copulas under privacy guarantees [0.0]
本研究は、差分プライバシーを取り入れた非パラメトリックコプラベース合成データ生成モデルDPNPCの強化に焦点を当てる。
DPNPCと他の3つのモデル(PrivBayes、DP-Copula、DP-Histogram)を比較し、プライバシ、ユーティリティ、実行時間を評価する。
論文 参考訳(メタデータ) (2024-09-27T10:18:14Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Differentially Private Fine-Tuning of Diffusion Models [22.454127503937883]
微分プライバシーと拡散モデル(DM)の統合は、有望だが挑戦的なフロンティアを示している。
この分野での最近の進歩は、公開データによる事前学習によって高品質な合成データを生成する可能性を強調している。
本稿では,プライバシとユーティリティのトレードオフを高めるために,トレーニング可能なパラメータの数を最小限に抑える,プライベート拡散モデルに最適化された戦略を提案する。
論文 参考訳(メタデータ) (2024-06-03T14:18:04Z) - Privacy Amplification for the Gaussian Mechanism via Bounded Support [64.86780616066575]
インスタンスごとの差分プライバシー(pDP)やフィッシャー情報損失(FIL)といったデータ依存のプライバシ会計フレームワークは、固定されたトレーニングデータセット内の個人に対してきめ細かいプライバシー保証を提供する。
本稿では,データ依存会計下でのプライバシ保証を向上することを示すとともに,バウンドサポートによるガウス機構の簡単な修正を提案する。
論文 参考訳(メタデータ) (2024-03-07T21:22:07Z) - On the Inherent Privacy Properties of Discrete Denoising Diffusion Models [17.773335593043004]
本稿では、離散拡散モデルに固有のプライバシー保護の先駆的な理論的探索について述べる。
我々のフレームワークは、トレーニングデータセット内の各データポイントの潜在的なプライバシー漏洩を解明する。
当社のバウンダリは、$$$サイズのデータポイントによるトレーニングが、プライバシー漏洩の急増につながっていることも示しています。
論文 参考訳(メタデータ) (2023-10-24T05:07:31Z) - Generating tabular datasets under differential privacy [0.0]
ディープニューラルネットワークのトレーニングプロセスに差分プライバシー(DP)を導入する。
これにより、結果データの品質とプライバシの間にトレードオフが生じます。
我々は、注意機構を活用する新しいエンドツーエンドモデルを実装している。
論文 参考訳(メタデータ) (2023-08-28T16:35:43Z) - How Do Input Attributes Impact the Privacy Loss in Differential Privacy? [55.492422758737575]
DPニューラルネットワークにおけるオブジェクトごとの規範と個人のプライバシ損失との関係について検討する。
プライバシ・ロス・インプット・サセプティビリティ(PLIS)と呼ばれる新しい指標を導入し、被験者のプライバシ・ロスを入力属性に適応させることを可能にした。
論文 参考訳(メタデータ) (2022-11-18T11:39:03Z) - DP2-Pub: Differentially Private High-Dimensional Data Publication with
Invariant Post Randomization [58.155151571362914]
本稿では,2つのフェーズで動作する差分プライベートな高次元データパブリッシング機構(DP2-Pub)を提案する。
属性をクラスタ内凝集度の高い低次元クラスタに分割し、クラスタ間の結合度を低くすることで、適切なプライバシ予算を得ることができる。
また、DP2-Pubメカニズムを、ローカルの差分プライバシーを満たす半正直なサーバでシナリオに拡張します。
論文 参考訳(メタデータ) (2022-08-24T17:52:43Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Effective and Privacy preserving Tabular Data Synthesizing [0.0]
複雑な分布を持つ多種多様なデータ型をモデル化できる新しい条件付きテーブルGANアーキテクチャを開発した。
我々は、厳格なプライバシー保証でCTAB-GANをトレーニングし、悪意のあるプライバシー攻撃に対してGANをトレーニングするためのセキュリティを強化する。
論文 参考訳(メタデータ) (2021-08-11T13:55:48Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。