論文の概要: Differentially Private Synthetic Data via Foundation Model APIs 1:
Images
- arxiv url: http://arxiv.org/abs/2305.15560v1
- Date: Wed, 24 May 2023 23:47:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 18:43:17.907070
- Title: Differentially Private Synthetic Data via Foundation Model APIs 1:
Images
- Title(参考訳): ファンデーションモデルAPIによる異なるプライベートな合成データ 1:画像
- Authors: Zinan Lin, Sivakanth Gopi, Janardhan Kulkarni, Harsha Nori, Sergey
Yekhanin
- Abstract要約: この問題を解決するために,PE(Private Evolution)と呼ばれる新しいフレームワークを提案する。
PEは、モデルトレーニングなしで、最先端のSOTA(State-of-the-art)メソッドにマッチしたり、性能を上回ります。
- 参考スコア(独自算出の注目度): 21.88477290044822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating differentially private (DP) synthetic data that closely resembles
the original private data without leaking sensitive user information is a
scalable way to mitigate privacy concerns in the current data-driven world. In
contrast to current practices that train customized models for this task, we
aim to generate DP Synthetic Data via APIs (DPSDA), where we treat foundation
models as blackboxes and only utilize their inference APIs. Such API-based,
training-free approaches are easier to deploy as exemplified by the recent
surge in the number of API-based apps. These approaches can also leverage the
power of large foundation models which are accessible via their inference APIs
while the model weights are unreleased. However, this comes with greater
challenges due to strictly more restrictive model access and the additional
need to protect privacy from the API provider.
In this paper, we present a new framework called Private Evolution (PE) to
solve this problem and show its initial promise on synthetic images.
Surprisingly, PE can match or even outperform state-of-the-art (SOTA) methods
without any model training. For example, on CIFAR10 (with ImageNet as the
public data), we achieve FID<=7.9 with privacy cost epsilon=0.67, significantly
improving the previous SOTA from epsilon=32. We further demonstrate the promise
of applying PE on large foundation models such as Stable Diffusion to tackle
challenging private datasets with a small number of high-resolution images.
- Abstract(参考訳): 機密情報を漏らすことなく、元のプライベートデータと密接に類似した差分プライベート(DP)合成データを生成することは、現在のデータ駆動の世界におけるプライバシーの懸念を軽減するスケーラブルな方法である。
このタスクのためにカスタマイズされたモデルをトレーニングする現在のプラクティスとは対照的に、我々はDP Synthetic DataをAPI(DPSDA)経由で生成することを目指しています。
このようなapiベース、トレーニングフリーのアプローチは、最近のapiベースのアプリ数の増加の例のように、デプロイが容易です。
これらのアプローチは、モデル重みがリリースされていない間、推論apiを通じてアクセス可能な大規模な基盤モデルのパワーを活用できる。
しかしこれは、厳格に制限されたモデルアクセスと、APIプロバイダからプライバシを保護する必要性により、より大きな課題が伴う。
本稿では,この問題を解決するために,PE(Private Evolution)と呼ばれる新しいフレームワークを提案する。
驚いたことに、PEはモデルトレーニングなしで、最先端のSOTA(State-of-the-art)メソッドにマッチしたり、性能を上回ります。
例えば、CIFAR10(パブリックデータとして ImageNet を使用)では、プライバシコストの epsilon=0.67 で FID<=7.9 を獲得し、以前の SOTA を epsilon=32 から大幅に改善した。
さらに,高解像度画像の少ないプライベートデータセットに挑戦するために,安定拡散のような大規模基盤モデルにPEを適用することを実証する。
関連論文リスト
- Is API Access to LLMs Useful for Generating Private Synthetic Tabular Data? [19.72500788849435]
差分プライベート(DP)合成データは、個人データの分析を可能にする汎用的なツールである。
大規模言語モデル(LLM)の最近の進歩は、DP合成データ生成を改善するための多くのアルゴリズム技術にインスピレーションを与えている。
あるアプローチの族は、基礎モデル重み付けにDP微調整を用いるが、最先端モデルのモデル重み付けは公開されていないかもしれない。
論文 参考訳(メタデータ) (2025-02-10T15:23:52Z) - Differentially Private Synthetic Data via APIs 3: Using Simulators Instead of Foundation Model [13.28430346661924]
差分プライベート(DP)合成データは、プライバシーを損なうことなく、プライベートデータの価値を解放するための重要なツールとなっている。
プライベート・エボリューション(PE)はDP合成データを生成するための有望な方法として登場した。
計算機グラフィックスベースの画像合成ツールであるシミュレーターが、PEフレームワーク内で効果的なAPIとして機能することを示します。
論文 参考訳(メタデータ) (2025-02-08T09:50:30Z) - Label Privacy in Split Learning for Large Models with Parameter-Efficient Training [51.28799334394279]
ラベルを非公開にしながら、API上でモデルを微調整する方法を探します。
P$3$EFTは、既存のPEFTプロパティを利用して、より低いパフォーマンスオーバーヘッドでプライバシを維持するマルチパーティ分割学習アルゴリズムである。
論文 参考訳(メタデータ) (2024-12-21T15:32:03Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Differentially Private Synthetic Data via Foundation Model APIs 2: Text [56.13240830670327]
現実世界で生成された高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。
テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。
その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:57:50Z) - Pre-trained Perceptual Features Improve Differentially Private Image
Generation [8.659595986100738]
差分降下勾配(DP-SGD)を用いた中等度生成モデルの訓練も困難である。
私たちは、情報のある公開データセット上に適切な、関連する表現を構築し、その表現でプライベートデータをモデル化することを学びます。
私たちの研究は、プライベートと非プライベートの深層生成モデルの間のギャップを減らすための、シンプルで強力な基盤を導入しています。
論文 参考訳(メタデータ) (2022-05-25T16:46:01Z) - Large Scale Transfer Learning for Differentially Private Image
Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。
DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。
この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文 参考訳(メタデータ) (2022-05-06T01:22:20Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Don't Generate Me: Training Differentially Private Generative Models
with Sinkhorn Divergence [73.14373832423156]
そこで我々はDP-Sinkhornを提案する。DP-Sinkhornは個人データからデータ分布を差分プライバシで学習するための新しいトランスポートベース生成手法である。
差分的にプライベートな生成モデルを訓練するための既存のアプローチとは異なり、我々は敵の目的に頼らない。
論文 参考訳(メタデータ) (2021-11-01T18:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。