論文の概要: Understanding how Differentially Private Generative Models Spend their
Privacy Budget
- arxiv url: http://arxiv.org/abs/2305.10994v1
- Date: Thu, 18 May 2023 14:14:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 14:45:35.697338
- Title: Understanding how Differentially Private Generative Models Spend their
Privacy Budget
- Title(参考訳): プライベートな生成モデルがプライバシー予算をどう費やすかを理解する
- Authors: Georgi Ganev and Kai Xu and Emiliano De Cristofaro
- Abstract要約: 我々は,DP生成モデルがプライバシ予算を列や列に分散する方法について分析する。
グラフィカルモデルではプライバシの予算を水平に分散する一方で,データ量の増加によりモノトニックに最適化されたタスクのパフォーマンスが向上することを示す。
深層生成モデルはイテレーション毎に予算を費やすため、その振る舞いはさまざまなデータセット次元で予測できないが、より多くの機能でトレーニングされた場合、パフォーマンスが向上する可能性がある。
- 参考スコア(独自算出の注目度): 10.565267601373561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models trained with Differential Privacy (DP) are increasingly
used to produce synthetic data while reducing privacy risks. Navigating their
specific privacy-utility tradeoffs makes it challenging to determine which
models would work best for specific settings/tasks. In this paper, we fill this
gap in the context of tabular data by analyzing how DP generative models
distribute privacy budgets across rows and columns, arguably the main source of
utility degradation. We examine the main factors contributing to how privacy
budgets are spent, including underlying modeling techniques, DP mechanisms, and
data dimensionality.
Our extensive evaluation of both graphical and deep generative models sheds
light on the distinctive features that render them suitable for different
settings and tasks. We show that graphical models distribute the privacy budget
horizontally and thus cannot handle relatively wide datasets while the
performance on the task they were optimized for monotonically increases with
more data. Deep generative models spend their budget per iteration, so their
behavior is less predictable with varying dataset dimensions but could perform
better if trained on more features. Also, low levels of privacy
($\epsilon\geq100$) could help some models generalize, achieving better results
than without applying DP.
- Abstract(参考訳): 差分プライバシー(DP)で訓練された生成モデルは、プライバシーリスクを低減しつつ、合成データの生成にますます使用される。
特定のプライバシとユーティリティのトレードオフをナビゲートすることで、特定の設定やタスクに最適なモデルを決定することが難しくなる。
本稿では,DP生成モデルが列や列にプライバシ予算を分配する方法を解析することにより,表データのコンテキストにおけるこのギャップを埋める。
基礎となるモデリング技術,DP機構,データ次元など,プライバシ予算の支出に寄与する主な要因について検討する。
グラフィカルモデルと深部生成モデルの両方に対する広範囲な評価は、異なる設定やタスクに適した特徴に光を当てています。
グラフィカルモデルでは、プライバシ予算を水平方向に分散させることで、比較的広いデータセットを扱うことができず、より多くのデータでモノトニックに最適化されたタスクのパフォーマンスが向上することを示す。
ディープジェネレーティブモデルでは、イテレーション毎に予算を費やすため、さまざまなデータセットサイズで振る舞いを予測できないが、より多くの機能でトレーニングすれば、パフォーマンスが向上する。
また、プライバシーの低いレベル(\epsilon\geq100$)は、一部のモデルの一般化に役立つ可能性がある。
関連論文リスト
- Privacy Amplification for the Gaussian Mechanism via Bounded Support [64.86780616066575]
インスタンスごとの差分プライバシー(pDP)やフィッシャー情報損失(FIL)といったデータ依存のプライバシ会計フレームワークは、固定されたトレーニングデータセット内の個人に対してきめ細かいプライバシー保証を提供する。
本稿では,データ依存会計下でのプライバシ保証を向上することを示すとともに,バウンドサポートによるガウス機構の簡単な修正を提案する。
論文 参考訳(メタデータ) (2024-03-07T21:22:07Z) - Privacy-preserving Fine-tuning of Large Language Models through Flatness [44.290122515938954]
微分プライバシ(DP)技術は、一般化劣化のコストでプライバシーリスクを軽減するために、既存の研究で検討されている。
本稿では,DP学習モデルにおける損失景観の平坦さが,プライバシと一般化のトレードオフにおいて重要な役割を担っていることを明らかにする。
適切なウェイトフラットネスを強制する全体的枠組みを提案し、競合するプライバシ保護を伴うモデルの一般化を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-07T00:44:11Z) - Private Fine-tuning of Large Language Models with Zeroth-order
Optimization [54.24600476755372]
DP-ZO(DP-ZO)は、ゼロオーダー最適化を民営化し、トレーニングデータのプライバシを保存する、大規模言語モデルを微調整する新しい手法である。
DP-ZOは、SQuADから1000のトレーニングサンプルにOPT-66Bを微調整すると、プライバシが1,10-5)$-DPになるため、わずか1.86%のパフォーマンス低下を示す。
論文 参考訳(メタデータ) (2024-01-09T03:53:59Z) - Reconciling AI Performance and Data Reconstruction Resilience for
Medical Imaging [52.578054703818125]
人工知能(AI)モデルは、トレーニングデータの情報漏洩に対して脆弱であり、非常に敏感である。
差別化プライバシ(DP)は、定量的なプライバシー予算を設定することで、これらの感受性を回避することを目的としている。
非常に大きなプライバシ予算を使用することで、リコンストラクション攻撃は不可能であり、パフォーマンスの低下は無視可能であることを示す。
論文 参考訳(メタデータ) (2023-12-05T12:21:30Z) - Probing the Transition to Dataset-Level Privacy in ML Models Using an
Output-Specific and Data-Resolved Privacy Profile [23.05994842923702]
差分プライバシーメカニズムを用いてデータセットでトレーニングされたモデルが、近隣のデータセットでトレーニングされた結果の分布によってカバーされる範囲を定量化するプライバシー指標について検討する。
プライバシプロファイルは、近隣のディストリビューションで発生する不明瞭性への観察された遷移を、$epsilon$の減少として調査するために使用できることを示す。
論文 参考訳(メタデータ) (2023-06-27T20:39:07Z) - Large Scale Transfer Learning for Differentially Private Image
Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。
DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。
この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文 参考訳(メタデータ) (2022-05-06T01:22:20Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Don't Generate Me: Training Differentially Private Generative Models
with Sinkhorn Divergence [73.14373832423156]
そこで我々はDP-Sinkhornを提案する。DP-Sinkhornは個人データからデータ分布を差分プライバシで学習するための新しいトランスポートベース生成手法である。
差分的にプライベートな生成モデルを訓練するための既存のアプローチとは異なり、我々は敵の目的に頼らない。
論文 参考訳(メタデータ) (2021-11-01T18:10:21Z) - DPlis: Boosting Utility of Differentially Private Deep Learning via
Randomized Smoothing [0.0]
DPlis--Differentially Private Learning wIth Smoothingを提案します。
DPlisは,プライバシ予算の下でモデル品質とトレーニングの安定性を効果的に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-03-02T06:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。