論文の概要: Graphical vs. Deep Generative Models: Measuring the Impact of Differentially Private Mechanisms and Budgets on Utility
- arxiv url: http://arxiv.org/abs/2305.10994v2
- Date: Wed, 28 Aug 2024 22:22:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 19:48:14.672969
- Title: Graphical vs. Deep Generative Models: Measuring the Impact of Differentially Private Mechanisms and Budgets on Utility
- Title(参考訳): グラフィカル対深部生成モデル:異なる私的メカニズムと予算が実用性に与える影響を測る
- Authors: Georgi Ganev, Kai Xu, Emiliano De Cristofaro,
- Abstract要約: 私たちはグラフィカルモデルと深層生成モデルを比較し、プライバシー予算の支出に寄与する重要な要素に注目します。
グラフィカルモデルでは,プライバシ予算を水平方向に分散させることで,一定のトレーニング時間において比較的広いデータセットを処理できないことがわかった。
深層生成モデルはイテレーション毎に予算を消費するので、その振る舞いはさまざまなデータセットの次元で予測できない。
- 参考スコア(独自算出の注目度): 18.213030598476198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models trained with Differential Privacy (DP) can produce synthetic data while reducing privacy risks. However, navigating their privacy-utility tradeoffs makes finding the best models for specific settings/tasks challenging. This paper bridges this gap by profiling how DP generative models for tabular data distribute privacy budgets across rows and columns, which is one of the primary sources of utility degradation. We compare graphical and deep generative models, focusing on the key factors contributing to how privacy budgets are spent, i.e., underlying modeling techniques, DP mechanisms, and data dimensionality. Through our measurement study, we shed light on the characteristics that make different models suitable for various settings and tasks. For instance, we find that graphical models distribute privacy budgets horizontally and thus cannot handle relatively wide datasets for a fixed training time; also, the performance on the task they were optimized for monotonically increases with more data but could also overfit. Deep generative models spend their budgets per iteration, so their behavior is less predictable with varying dataset dimensions, but are more flexible as they could perform better if trained on more features. Moreover, low levels of privacy ($\epsilon\geq100$) could help some models generalize, achieving better results than without applying DP. We believe our work will aid the deployment of DP synthetic data techniques by navigating through the best candidate models vis-a-vis the dataset features, desired privacy levels, and downstream tasks.
- Abstract(参考訳): 差分プライバシー(DP)でトレーニングされた生成モデルは、プライバシーリスクを低減しつつ合成データを生成することができる。
しかし、プライバシとユーティリティのトレードオフをナビゲートすることで、特定の設定やタスクに適したモデルを見つけることは難しい。
このギャップを補うために,表形式のデータに対するDP生成モデルがプライバシ予算を列や列に分散させる方法を提案する。
我々は、グラフィカルモデルと深層生成モデルを比較し、プライバシー予算の支出方法、すなわち基礎となるモデリング技術、DPメカニズム、データ次元性に寄与する重要な要素に焦点を当てる。
測定実験を通じて,様々な設定やタスクに適した異なるモデルを作成する特性について光を当てた。
例えば、グラフィカルモデルはプライバシの予算を水平に分散しているため、一定のトレーニング時間で比較的広いデータセットを処理できない。
深層生成モデルはイテレーション毎に予算を費やすため、その振る舞いはさまざまなデータセット次元で予測できないが、より多くの機能でトレーニングされた場合、より柔軟になる。
さらに、プライバシーの低いレベル(\epsilon\geq100$)は、一部のモデルの一般化に役立つ可能性がある。
当社の作業は,データセット機能や望ましいプライバシレベル,ダウンストリームタスクといった,最適な候補モデルをナビゲートすることで,DP合成データテクニックの展開を支援するものと考えています。
関連論文リスト
- Differentially Private Fine-Tuning of Diffusion Models [22.454127503937883]
微分プライバシーと拡散モデル(DM)の統合は、有望だが挑戦的なフロンティアを示している。
この分野での最近の進歩は、公開データによる事前学習によって高品質な合成データを生成する可能性を強調している。
本稿では,プライバシとユーティリティのトレードオフを高めるために,トレーニング可能なパラメータの数を最小限に抑える,プライベート拡散モデルに最適化された戦略を提案する。
論文 参考訳(メタデータ) (2024-06-03T14:18:04Z) - Reconciling AI Performance and Data Reconstruction Resilience for
Medical Imaging [52.578054703818125]
人工知能(AI)モデルは、トレーニングデータの情報漏洩に対して脆弱であり、非常に敏感である。
差別化プライバシ(DP)は、定量的なプライバシー予算を設定することで、これらの感受性を回避することを目的としている。
非常に大きなプライバシ予算を使用することで、リコンストラクション攻撃は不可能であり、パフォーマンスの低下は無視可能であることを示す。
論文 参考訳(メタデータ) (2023-12-05T12:21:30Z) - Sparsity-Preserving Differentially Private Training of Large Embedding
Models [67.29926605156788]
DP-SGDは、差分プライバシーと勾配降下を組み合わせたトレーニングアルゴリズムである。
DP-SGDをネーティブに埋め込みモデルに適用すると、勾配の間隔が破壊され、トレーニング効率が低下する。
我々は,大規模埋め込みモデルのプライベートトレーニングにおいて,勾配間隔を保ったDP-FESTとDP-AdaFESTの2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-14T17:59:51Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Probing the Transition to Dataset-Level Privacy in ML Models Using an
Output-Specific and Data-Resolved Privacy Profile [23.05994842923702]
差分プライバシーメカニズムを用いてデータセットでトレーニングされたモデルが、近隣のデータセットでトレーニングされた結果の分布によってカバーされる範囲を定量化するプライバシー指標について検討する。
プライバシプロファイルは、近隣のディストリビューションで発生する不明瞭性への観察された遷移を、$epsilon$の減少として調査するために使用できることを示す。
論文 参考訳(メタデータ) (2023-06-27T20:39:07Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Large Scale Transfer Learning for Differentially Private Image
Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。
DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。
この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文 参考訳(メタデータ) (2022-05-06T01:22:20Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Don't Generate Me: Training Differentially Private Generative Models
with Sinkhorn Divergence [73.14373832423156]
そこで我々はDP-Sinkhornを提案する。DP-Sinkhornは個人データからデータ分布を差分プライバシで学習するための新しいトランスポートベース生成手法である。
差分的にプライベートな生成モデルを訓練するための既存のアプローチとは異なり、我々は敵の目的に頼らない。
論文 参考訳(メタデータ) (2021-11-01T18:10:21Z) - DPlis: Boosting Utility of Differentially Private Deep Learning via
Randomized Smoothing [0.0]
DPlis--Differentially Private Learning wIth Smoothingを提案します。
DPlisは,プライバシ予算の下でモデル品質とトレーニングの安定性を効果的に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-03-02T06:33:14Z) - Differentially Private Synthetic Medical Data Generation using
Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。
提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。
私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文 参考訳(メタデータ) (2020-12-22T01:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。