論文の概要: Differentially Private Synthetic Data via Foundation Model APIs 1:
Images
- arxiv url: http://arxiv.org/abs/2305.15560v1
- Date: Wed, 24 May 2023 23:47:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 18:43:17.907070
- Title: Differentially Private Synthetic Data via Foundation Model APIs 1:
Images
- Title(参考訳): ファンデーションモデルAPIによる異なるプライベートな合成データ 1:画像
- Authors: Zinan Lin, Sivakanth Gopi, Janardhan Kulkarni, Harsha Nori, Sergey
Yekhanin
- Abstract要約: この問題を解決するために,PE(Private Evolution)と呼ばれる新しいフレームワークを提案する。
PEは、モデルトレーニングなしで、最先端のSOTA(State-of-the-art)メソッドにマッチしたり、性能を上回ります。
- 参考スコア(独自算出の注目度): 21.88477290044822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating differentially private (DP) synthetic data that closely resembles
the original private data without leaking sensitive user information is a
scalable way to mitigate privacy concerns in the current data-driven world. In
contrast to current practices that train customized models for this task, we
aim to generate DP Synthetic Data via APIs (DPSDA), where we treat foundation
models as blackboxes and only utilize their inference APIs. Such API-based,
training-free approaches are easier to deploy as exemplified by the recent
surge in the number of API-based apps. These approaches can also leverage the
power of large foundation models which are accessible via their inference APIs
while the model weights are unreleased. However, this comes with greater
challenges due to strictly more restrictive model access and the additional
need to protect privacy from the API provider.
In this paper, we present a new framework called Private Evolution (PE) to
solve this problem and show its initial promise on synthetic images.
Surprisingly, PE can match or even outperform state-of-the-art (SOTA) methods
without any model training. For example, on CIFAR10 (with ImageNet as the
public data), we achieve FID<=7.9 with privacy cost epsilon=0.67, significantly
improving the previous SOTA from epsilon=32. We further demonstrate the promise
of applying PE on large foundation models such as Stable Diffusion to tackle
challenging private datasets with a small number of high-resolution images.
- Abstract(参考訳): 機密情報を漏らすことなく、元のプライベートデータと密接に類似した差分プライベート(DP)合成データを生成することは、現在のデータ駆動の世界におけるプライバシーの懸念を軽減するスケーラブルな方法である。
このタスクのためにカスタマイズされたモデルをトレーニングする現在のプラクティスとは対照的に、我々はDP Synthetic DataをAPI(DPSDA)経由で生成することを目指しています。
このようなapiベース、トレーニングフリーのアプローチは、最近のapiベースのアプリ数の増加の例のように、デプロイが容易です。
これらのアプローチは、モデル重みがリリースされていない間、推論apiを通じてアクセス可能な大規模な基盤モデルのパワーを活用できる。
しかしこれは、厳格に制限されたモデルアクセスと、APIプロバイダからプライバシを保護する必要性により、より大きな課題が伴う。
本稿では,この問題を解決するために,PE(Private Evolution)と呼ばれる新しいフレームワークを提案する。
驚いたことに、PEはモデルトレーニングなしで、最先端のSOTA(State-of-the-art)メソッドにマッチしたり、性能を上回ります。
例えば、CIFAR10(パブリックデータとして ImageNet を使用)では、プライバシコストの epsilon=0.67 で FID<=7.9 を獲得し、以前の SOTA を epsilon=32 から大幅に改善した。
さらに,高解像度画像の少ないプライベートデータセットに挑戦するために,安定拡散のような大規模基盤モデルにPEを適用することを実証する。
関連論文リスト
- Differentially Private Synthetic Data Generation via
Lipschitz-Regularised Variational Autoencoders [3.7463972693041274]
生成モデルが個々のトレーニング記録の多くの詳細を記憶する傾向があることは、しばしば見落とされがちである。
本稿では,生成モデルにおける本質を直接活用するデータ生成手法について検討する。
論文 参考訳(メタデータ) (2023-04-22T07:24:56Z) - Fine-Tuning with Differential Privacy Necessitates an Additional
Hyperparameter Search [38.83524780461911]
トレーニング済みニューラルネットワークで微調整されたレイヤを慎重に選択することで、プライバシと正確性の間に新たな最先端のトレードオフを確立することができることを示す。
ImageNetで事前トレーニングされたモデルに対して、CIFAR-100上で$(varepsilon, delta)= (2, 10-5)$に対して77.9%の精度を達成する。
論文 参考訳(メタデータ) (2022-10-05T11:32:49Z) - Pre-trained Perceptual Features Improve Differentially Private Image
Generation [8.659595986100738]
差分降下勾配(DP-SGD)を用いた中等度生成モデルの訓練も困難である。
私たちは、情報のある公開データセット上に適切な、関連する表現を構築し、その表現でプライベートデータをモデル化することを学びます。
私たちの研究は、プライベートと非プライベートの深層生成モデルの間のギャップを減らすための、シンプルで強力な基盤を導入しています。
論文 参考訳(メタデータ) (2022-05-25T16:46:01Z) - Large Scale Transfer Learning for Differentially Private Image
Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。
DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。
この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文 参考訳(メタデータ) (2022-05-06T01:22:20Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Don't Generate Me: Training Differentially Private Generative Models
with Sinkhorn Divergence [73.14373832423156]
そこで我々はDP-Sinkhornを提案する。DP-Sinkhornは個人データからデータ分布を差分プライバシで学習するための新しいトランスポートベース生成手法である。
差分的にプライベートな生成モデルを訓練するための既存のアプローチとは異なり、我々は敵の目的に頼らない。
論文 参考訳(メタデータ) (2021-11-01T18:10:21Z) - Robbing the Fed: Directly Obtaining Private Data in Federated Learning
with Modified Models [56.0250919557652]
フェデレーション学習は、ユーザーのプライバシーと効率を高めるという約束で急速に人気を集めている。
ユーザプライバシに対する以前の攻撃はスコープが限られており、少数のデータポイントに集約されたグラデーション更新にはスケールしない。
共有モデルアーキテクチャの最小限ではあるが悪意のある変更に基づく新しい脅威モデルを導入する。
論文 参考訳(メタデータ) (2021-10-25T15:52:06Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Differentially Private Synthetic Medical Data Generation using
Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。
提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。
私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文 参考訳(メタデータ) (2020-12-22T01:03:49Z) - Knowledge-Enriched Distributional Model Inversion Attacks [49.43828150561947]
モデルインバージョン(MI)攻撃は、モデルパラメータからトレーニングデータを再構成することを目的としている。
本稿では,パブリックデータからプライベートモデルに対する攻撃を行うのに役立つ知識を抽出する,新しい反転型GANを提案する。
実験の結果,これらの手法を組み合わせることで,最先端MI攻撃の成功率を150%向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-10-08T16:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。