論文の概要: Differentially Private Synthetic Data via APIs 3: Using Simulators Instead of Foundation Model
- arxiv url: http://arxiv.org/abs/2502.05505v3
- Date: Tue, 20 May 2025 04:05:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.343257
- Title: Differentially Private Synthetic Data via APIs 3: Using Simulators Instead of Foundation Model
- Title(参考訳): API経由の異なるプライベートな合成データ 3: 基礎モデルの代わりにシミュレータを使用する
- Authors: Zinan Lin, Tadas Baltrusaitis, Wenyu Wang, Sergey Yekhanin,
- Abstract要約: 差分プライベート(DP)合成データは、プライバシーを損なうことなく、プライベートデータの価値を解放するための重要なツールとなっている。
プライベート・エボリューション(PE)はDP合成データを生成するための有望な方法として登場した。
PEフレームワークは基盤モデルを超えたAPIを可能にするのに十分な一般性を持っていることを示す。
- 参考スコア(独自算出の注目度): 17.92638160807867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Differentially private (DP) synthetic data, which closely resembles the original private data while maintaining strong privacy guarantees, has become a key tool for unlocking the value of private data without compromising privacy. Recently, Private Evolution (PE) has emerged as a promising method for generating DP synthetic data. Unlike other training-based approaches, PE only requires access to inference APIs from foundation models, enabling it to harness the power of state-of-the-art (SoTA) models. However, a suitable foundation model for a specific private data domain is not always available. In this paper, we discover that the PE framework is sufficiently general to allow APIs beyond foundation models. In particular, we demonstrate that many SoTA data synthesizers that do not rely on neural networks--such as computer graphics-based image generators, which we refer to as simulators--can be effectively integrated into PE. This insight significantly broadens PE's applicability and unlocks the potential of powerful simulators for DP data synthesis. We explore this approach, named Sim-PE, in the context of image synthesis. Across four diverse simulators, Sim-PE performs well, improving the downstream classification accuracy of PE by up to 3x, reducing FID by up to 80%, and offering much greater efficiency. We also show that simulators and foundation models can be easily leveraged together within PE to achieve further improvements. The code is open-sourced in the Private Evolution Python library: https://github.com/microsoft/DPSDA.
- Abstract(参考訳): 差分的プライベート(DP)合成データは、強力なプライバシー保証を維持しながら、元のプライベートデータとよく似ているが、プライバシーを損なうことなくプライベートデータの価値を解放するための重要なツールとなっている。
近年,DP合成データを生成するための有望な手法として,PE(Private Evolution)が登場している。
他のトレーニングベースのアプローチとは異なり、PEはファンデーションモデルからの推論APIへのアクセスのみを必要としており、最新技術(SoTA)モデルのパワーを活用することができる。
しかし、特定のプライベートデータドメインに適した基盤モデルは、必ずしも利用できない。
本稿では,PEフレームワークが基盤モデルを超えたAPIを実現するのに十分な一般性があることを明らかにする。
特に,コンピュータグラフィックスベースの画像生成装置など,ニューラルネットワークに依存しない多くのSoTAデータ合成装置が,PEに効果的に統合可能であることを示す。
この知見はPEの適用性を著しく拡張し、DPデータ合成のための強力なシミュレータの可能性を解き放つ。
我々は、画像合成の文脈において、Sim-PEと呼ばれるこのアプローチを探求する。
4つの多様なシミュレータでSim-PEは良好に動作し、PEの下流分類精度を最大3倍改善し、FIDを最大80%削減し、効率を大幅に向上した。
また,シミュレータと基礎モデルをPE内で容易に組み合わせることで,さらなる改善が期待できることを示す。
コードはPrivate Evolution Pythonライブラリ(https://github.com/microsoft/DPSDA)でオープンソース公開されている。
関連論文リスト
- Differentially Private Non Parametric Copulas: Generating synthetic data with non parametric copulas under privacy guarantees [0.0]
本研究は、差分プライバシーを取り入れた非パラメトリックコプラベース合成データ生成モデルDPNPCの強化に焦点を当てる。
DPNPCと他の3つのモデル(PrivBayes、DP-Copula、DP-Histogram)を比較し、プライバシ、ユーティリティ、実行時間を評価する。
論文 参考訳(メタデータ) (2024-09-27T10:18:14Z) - Differentially Private Synthetic Data via Foundation Model APIs 2: Text [56.13240830670327]
現実世界で生成された高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。
テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。
その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:57:50Z) - Harnessing large-language models to generate private synthetic text [18.863579044812703]
DP-SGDのような異なるプライベートトレーニングアルゴリズムは、トレーニングされたモデルがプライベート情報を公開しないことを保証することで、センシティブなトレーニングデータを保護する。
本稿では、原データに対して差分的にプライベートな合成データを生成し、その合成データに基づいてモデルを非プライベートに訓練する代替手法について検討する。
プライベートな合成データを作るのは プライベートなモデルを訓練するより はるかに難しい
論文 参考訳(メタデータ) (2023-06-02T16:59:36Z) - Differentially Private Synthetic Data via Foundation Model APIs 1: Images [29.27468374365625]
この問題を解決するために,PE(Private Evolution)と呼ばれる新しいフレームワークを提案する。
PEは、モデルトレーニングなしで、最先端のSOTA(State-of-the-art)メソッドと一致させることができる。
例えば、CIFAR10では、プライバシコストのエプシロン=0.67でFID = 7.9を達成し、以前のSOTAをエプシロン=32から大幅に改善します。
論文 参考訳(メタデータ) (2023-05-24T23:47:26Z) - Pre-trained Perceptual Features Improve Differentially Private Image
Generation [8.659595986100738]
差分降下勾配(DP-SGD)を用いた中等度生成モデルの訓練も困難である。
私たちは、情報のある公開データセット上に適切な、関連する表現を構築し、その表現でプライベートデータをモデル化することを学びます。
私たちの研究は、プライベートと非プライベートの深層生成モデルの間のギャップを減らすための、シンプルで強力な基盤を導入しています。
論文 参考訳(メタデータ) (2022-05-25T16:46:01Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Don't Generate Me: Training Differentially Private Generative Models
with Sinkhorn Divergence [73.14373832423156]
そこで我々はDP-Sinkhornを提案する。DP-Sinkhornは個人データからデータ分布を差分プライバシで学習するための新しいトランスポートベース生成手法である。
差分的にプライベートな生成モデルを訓練するための既存のアプローチとは異なり、我々は敵の目的に頼らない。
論文 参考訳(メタデータ) (2021-11-01T18:10:21Z) - Differentially private federated deep learning for multi-site medical
image segmentation [56.30543374146002]
フェデレートラーニング(FL)のような協調機械学習技術は、データ転送なしで効果的に大規模なデータセット上でモデルのトレーニングを可能にする。
近年のイニシアチブでは、FLで訓練されたセグメンテーションモデルが、局所的に訓練されたモデルと同様のパフォーマンスを達成できることが示されている。
しかし、FLは完全なプライバシ保護技術ではなく、プライバシ中心の攻撃は秘密の患者データを開示することができる。
論文 参考訳(メタデータ) (2021-07-06T12:57:32Z) - UnrealPerson: An Adaptive Pipeline towards Costless Person
Re-identification [102.58619642363959]
本稿では,unrealpersonという,非現実的な画像データをフル活用して,トレーニングとデプロイメントの両面でコストを削減する新しいパイプラインを提案する。
3,000のIDと12万のインスタンスで、MSMT17に直接転送されると38.5%のランク-1の精度が得られる。
論文 参考訳(メタデータ) (2020-12-08T08:15:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。