論文の概要: Differentially Private Synthetic Data via Foundation Model APIs 1:
Images
- arxiv url: http://arxiv.org/abs/2305.15560v2
- Date: Thu, 29 Feb 2024 08:14:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 18:59:29.655247
- Title: Differentially Private Synthetic Data via Foundation Model APIs 1:
Images
- Title(参考訳): ファンデーションモデルAPIによる異なるプライベートな合成データ 1:画像
- Authors: Zinan Lin, Sivakanth Gopi, Janardhan Kulkarni, Harsha Nori, Sergey
Yekhanin
- Abstract要約: この問題を解決するために,PE(Private Evolution)と呼ばれる新しいフレームワークを提案する。
PEは、モデルトレーニングなしで、最先端のSOTA(State-of-the-art)メソッドと一致させることができる。
例えば、CIFAR10では、プライバシコストのエプシロン=0.67でFID = 7.9を達成し、以前のSOTAをエプシロン=32から大幅に改善します。
- 参考スコア(独自算出の注目度): 31.407226012334295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating differentially private (DP) synthetic data that closely resembles
the original private data is a scalable way to mitigate privacy concerns in the
current data-driven world. In contrast to current practices that train
customized models for this task, we aim to generate DP Synthetic Data via APIs
(DPSDA), where we treat foundation models as blackboxes and only utilize their
inference APIs. Such API-based, training-free approaches are easier to deploy
as exemplified by the recent surge in the number of API-based apps. These
approaches can also leverage the power of large foundation models which are
only accessible via their inference APIs. However, this comes with greater
challenges due to strictly more restrictive model access and the need to
protect privacy from the API provider.
In this paper, we present a new framework called Private Evolution (PE) to
solve this problem and show its initial promise on synthetic images.
Surprisingly, PE can match or even outperform state-of-the-art (SOTA) methods
without any model training. For example, on CIFAR10 (with ImageNet as the
public data), we achieve FID <= 7.9 with privacy cost {\epsilon} = 0.67,
significantly improving the previous SOTA from {\epsilon} = 32. We further
demonstrate the promise of applying PE on large foundation models such as
Stable Diffusion to tackle challenging private datasets with a small number of
high-resolution images. The code and data are released at
https://github.com/microsoft/DPSDA.
- Abstract(参考訳): 差分プライベート(DP)合成データを生成することは、現在のデータ駆動の世界におけるプライバシーの懸念を軽減するスケーラブルな方法である。
このタスクのためにカスタマイズされたモデルをトレーニングする現在のプラクティスとは対照的に、我々はDP Synthetic DataをAPI(DPSDA)経由で生成することを目指しています。
このようなapiベース、トレーニングフリーのアプローチは、最近のapiベースのアプリ数の増加の例のように、デプロイが容易です。
これらのアプローチは、推論apiを通じてのみアクセス可能な、大規模な基盤モデルのパワーを活用できる。
しかしこれは、厳格に制限されたモデルアクセスと、APIプロバイダからプライバシを保護する必要性のため、より大きな課題が伴う。
本稿では,この問題を解決するために,PE(Private Evolution)と呼ばれる新しいフレームワークを提案する。
驚いたことに、PEはモデルトレーニングなしで、最先端のSOTA(State-of-the-art)メソッドにマッチしたり、性能を上回ります。
例えば、CIFAR10(パブリックデータとして ImageNet を使用)では、プライバシコスト {\epsilon} = 0.67 で FID <= 7.9 を獲得し、以前の SOTA を {\epsilon} = 32 から大幅に改善します。
さらに,高解像度画像の少ないプライベートデータセットに挑戦するために,安定拡散のような大規模基盤モデルにPEを適用することを実証する。
コードとデータはhttps://github.com/microsoft/dpsdaでリリースされる。
関連論文リスト
- Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Can't Hide Behind the API: Stealing Black-Box Commercial Embedding Models [47.13042922690422]
OpenAIやCohereといった企業は,ユーザが使用料を支払わなければならないAPIを通じてアクセスされる,競合する埋め込みモデルを開発した。
我々の知る限りでは、これらのモデルを商用APIから得られたテキスト埋め込みペア上でローカルモデルをトレーニングすることで、検索を"スティル"するための最初の取り組みを提示する。
論文 参考訳(メタデータ) (2024-06-13T17:40:56Z) - Differentially Private Synthetic Data via Foundation Model APIs 2: Text [56.13240830670327]
現実世界で生成された高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。
テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。
その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:57:50Z) - Harnessing large-language models to generate private synthetic text [18.863579044812703]
DP-SGDのような異なるプライベートトレーニングアルゴリズムは、トレーニングされたモデルがプライベート情報を公開しないことを保証することで、センシティブなトレーニングデータを保護する。
本稿では、原データに対して差分的にプライベートな合成データを生成し、その合成データに基づいてモデルを非プライベートに訓練する代替手法について検討する。
プライベートな合成データを作るのは プライベートなモデルを訓練するより はるかに難しい
論文 参考訳(メタデータ) (2023-06-02T16:59:36Z) - Pre-trained Perceptual Features Improve Differentially Private Image
Generation [8.659595986100738]
差分降下勾配(DP-SGD)を用いた中等度生成モデルの訓練も困難である。
私たちは、情報のある公開データセット上に適切な、関連する表現を構築し、その表現でプライベートデータをモデル化することを学びます。
私たちの研究は、プライベートと非プライベートの深層生成モデルの間のギャップを減らすための、シンプルで強力な基盤を導入しています。
論文 参考訳(メタデータ) (2022-05-25T16:46:01Z) - Large Scale Transfer Learning for Differentially Private Image
Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。
DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。
この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文 参考訳(メタデータ) (2022-05-06T01:22:20Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Don't Generate Me: Training Differentially Private Generative Models
with Sinkhorn Divergence [73.14373832423156]
そこで我々はDP-Sinkhornを提案する。DP-Sinkhornは個人データからデータ分布を差分プライバシで学習するための新しいトランスポートベース生成手法である。
差分的にプライベートな生成モデルを訓練するための既存のアプローチとは異なり、我々は敵の目的に頼らない。
論文 参考訳(メタデータ) (2021-11-01T18:10:21Z) - UnrealPerson: An Adaptive Pipeline towards Costless Person
Re-identification [102.58619642363959]
本稿では,unrealpersonという,非現実的な画像データをフル活用して,トレーニングとデプロイメントの両面でコストを削減する新しいパイプラインを提案する。
3,000のIDと12万のインスタンスで、MSMT17に直接転送されると38.5%のランク-1の精度が得られる。
論文 参考訳(メタデータ) (2020-12-08T08:15:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。