論文の概要: Understanding how Differentially Private Generative Models Spend their
Privacy Budget
- arxiv url: http://arxiv.org/abs/2305.10994v1
- Date: Thu, 18 May 2023 14:14:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 14:45:35.697338
- Title: Understanding how Differentially Private Generative Models Spend their
Privacy Budget
- Title(参考訳): プライベートな生成モデルがプライバシー予算をどう費やすかを理解する
- Authors: Georgi Ganev and Kai Xu and Emiliano De Cristofaro
- Abstract要約: 我々は,DP生成モデルがプライバシ予算を列や列に分散する方法について分析する。
グラフィカルモデルではプライバシの予算を水平に分散する一方で,データ量の増加によりモノトニックに最適化されたタスクのパフォーマンスが向上することを示す。
深層生成モデルはイテレーション毎に予算を費やすため、その振る舞いはさまざまなデータセット次元で予測できないが、より多くの機能でトレーニングされた場合、パフォーマンスが向上する可能性がある。
- 参考スコア(独自算出の注目度): 10.565267601373561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models trained with Differential Privacy (DP) are increasingly
used to produce synthetic data while reducing privacy risks. Navigating their
specific privacy-utility tradeoffs makes it challenging to determine which
models would work best for specific settings/tasks. In this paper, we fill this
gap in the context of tabular data by analyzing how DP generative models
distribute privacy budgets across rows and columns, arguably the main source of
utility degradation. We examine the main factors contributing to how privacy
budgets are spent, including underlying modeling techniques, DP mechanisms, and
data dimensionality.
Our extensive evaluation of both graphical and deep generative models sheds
light on the distinctive features that render them suitable for different
settings and tasks. We show that graphical models distribute the privacy budget
horizontally and thus cannot handle relatively wide datasets while the
performance on the task they were optimized for monotonically increases with
more data. Deep generative models spend their budget per iteration, so their
behavior is less predictable with varying dataset dimensions but could perform
better if trained on more features. Also, low levels of privacy
($\epsilon\geq100$) could help some models generalize, achieving better results
than without applying DP.
- Abstract(参考訳): 差分プライバシー(DP)で訓練された生成モデルは、プライバシーリスクを低減しつつ、合成データの生成にますます使用される。
特定のプライバシとユーティリティのトレードオフをナビゲートすることで、特定の設定やタスクに最適なモデルを決定することが難しくなる。
本稿では,DP生成モデルが列や列にプライバシ予算を分配する方法を解析することにより,表データのコンテキストにおけるこのギャップを埋める。
基礎となるモデリング技術,DP機構,データ次元など,プライバシ予算の支出に寄与する主な要因について検討する。
グラフィカルモデルと深部生成モデルの両方に対する広範囲な評価は、異なる設定やタスクに適した特徴に光を当てています。
グラフィカルモデルでは、プライバシ予算を水平方向に分散させることで、比較的広いデータセットを扱うことができず、より多くのデータでモノトニックに最適化されたタスクのパフォーマンスが向上することを示す。
ディープジェネレーティブモデルでは、イテレーション毎に予算を費やすため、さまざまなデータセットサイズで振る舞いを予測できないが、より多くの機能でトレーニングすれば、パフォーマンスが向上する。
また、プライバシーの低いレベル(\epsilon\geq100$)は、一部のモデルの一般化に役立つ可能性がある。
関連論文リスト
- Differentially Private Fine-Tuning of Diffusion Models [22.454127503937883]
微分プライバシーと拡散モデル(DM)の統合は、有望だが挑戦的なフロンティアを示している。
この分野での最近の進歩は、公開データによる事前学習によって高品質な合成データを生成する可能性を強調している。
本稿では,プライバシとユーティリティのトレードオフを高めるために,トレーニング可能なパラメータの数を最小限に抑える,プライベート拡散モデルに最適化された戦略を提案する。
論文 参考訳(メタデータ) (2024-06-03T14:18:04Z) - Reconciling AI Performance and Data Reconstruction Resilience for
Medical Imaging [52.578054703818125]
人工知能(AI)モデルは、トレーニングデータの情報漏洩に対して脆弱であり、非常に敏感である。
差別化プライバシ(DP)は、定量的なプライバシー予算を設定することで、これらの感受性を回避することを目的としている。
非常に大きなプライバシ予算を使用することで、リコンストラクション攻撃は不可能であり、パフォーマンスの低下は無視可能であることを示す。
論文 参考訳(メタデータ) (2023-12-05T12:21:30Z) - Sparsity-Preserving Differentially Private Training of Large Embedding
Models [67.29926605156788]
DP-SGDは、差分プライバシーと勾配降下を組み合わせたトレーニングアルゴリズムである。
DP-SGDをネーティブに埋め込みモデルに適用すると、勾配の間隔が破壊され、トレーニング効率が低下する。
我々は,大規模埋め込みモデルのプライベートトレーニングにおいて,勾配間隔を保ったDP-FESTとDP-AdaFESTの2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-14T17:59:51Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Probing the Transition to Dataset-Level Privacy in ML Models Using an
Output-Specific and Data-Resolved Privacy Profile [23.05994842923702]
差分プライバシーメカニズムを用いてデータセットでトレーニングされたモデルが、近隣のデータセットでトレーニングされた結果の分布によってカバーされる範囲を定量化するプライバシー指標について検討する。
プライバシプロファイルは、近隣のディストリビューションで発生する不明瞭性への観察された遷移を、$epsilon$の減少として調査するために使用できることを示す。
論文 参考訳(メタデータ) (2023-06-27T20:39:07Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Large Scale Transfer Learning for Differentially Private Image
Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。
DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。
この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文 参考訳(メタデータ) (2022-05-06T01:22:20Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Don't Generate Me: Training Differentially Private Generative Models
with Sinkhorn Divergence [73.14373832423156]
そこで我々はDP-Sinkhornを提案する。DP-Sinkhornは個人データからデータ分布を差分プライバシで学習するための新しいトランスポートベース生成手法である。
差分的にプライベートな生成モデルを訓練するための既存のアプローチとは異なり、我々は敵の目的に頼らない。
論文 参考訳(メタデータ) (2021-11-01T18:10:21Z) - DPlis: Boosting Utility of Differentially Private Deep Learning via
Randomized Smoothing [0.0]
DPlis--Differentially Private Learning wIth Smoothingを提案します。
DPlisは,プライバシ予算の下でモデル品質とトレーニングの安定性を効果的に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-03-02T06:33:14Z) - Differentially Private Synthetic Medical Data Generation using
Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。
提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。
私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文 参考訳(メタデータ) (2020-12-22T01:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。