論文の概要: Private Set Generation with Discriminative Information
- arxiv url: http://arxiv.org/abs/2211.04446v1
- Date: Mon, 7 Nov 2022 10:02:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 15:53:54.805838
- Title: Private Set Generation with Discriminative Information
- Title(参考訳): 識別情報を用いたプライベートセット生成
- Authors: Dingfan Chen, Raouf Kerkouche, Mario Fritz
- Abstract要約: 異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 63.851085173614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Differentially private data generation techniques have become a promising
solution to the data privacy challenge -- it enables sharing of data while
complying with rigorous privacy guarantees, which is essential for scientific
progress in sensitive domains. Unfortunately, restricted by the inherent
complexity of modeling high-dimensional distributions, existing private
generative models are struggling with the utility of synthetic samples.
In contrast to existing works that aim at fitting the complete data
distribution, we directly optimize for a small set of samples that are
representative of the distribution under the supervision of discriminative
information from downstream tasks, which is generally an easier task and more
suitable for private training. Our work provides an alternative view for
differentially private generation of high-dimensional data and introduces a
simple yet effective method that greatly improves the sample utility of
state-of-the-art approaches.
- Abstract(参考訳): 機密ドメインの科学的な進歩に不可欠な厳密なプライバシー保証を遵守しながら、データの共有を可能にする。
残念なことに、高次元分布のモデル化の固有の複雑さによって制限された既存のプライベート生成モデルは、合成サンプルの有用性に苦しめられている。
完全データ分布に適合することを目的とした既存の作業とは対照的に,ダウンストリームタスクからの識別情報の監督の下で分布を代表する少数のサンプルに対して直接最適化を行う。
本研究は,高次元データの差分プライベート生成のための代替的視点を提供し,最先端手法のサンプルの有用性を大幅に向上させる,単純かつ効果的な手法を提案する。
関連論文リスト
- Privacy-preserving datasets by capturing feature distributions with Conditional VAEs [0.11999555634662634]
条件付き変分オートエンコーダ(CVAE)は、大きな事前学習された視覚基盤モデルから抽出された特徴ベクトルに基づいて訓練される。
本手法は, 医用領域と自然画像領域の両方において, 従来のアプローチよりも優れている。
結果は、データスカースおよびプライバシに敏感な環境におけるディープラーニングアプリケーションに大きな影響を与える生成モデルの可能性を強調している。
論文 参考訳(メタデータ) (2024-08-01T15:26:24Z) - LLM-based Privacy Data Augmentation Guided by Knowledge Distillation
with a Distribution Tutor for Medical Text Classification [67.92145284679623]
ノイズの多いプライベートディストリビューションをモデル化し,プライバシコストの低いサンプル生成を制御するDPベースのチュータを提案する。
理論的には、モデルのプライバシ保護を分析し、モデルを実証的に検証する。
論文 参考訳(メタデータ) (2024-02-26T11:52:55Z) - Federated Learning Empowered by Generative Content [55.576885852501775]
フェデレートラーニング(FL)は、プライバシ保護方法でモデルのトレーニングに分散プライベートデータを活用可能にする。
本稿では,FedGCと呼ばれる新しいFLフレームワークを提案する。
我々は、さまざまなベースライン、データセット、シナリオ、モダリティをカバーする、FedGCに関する体系的な実証的研究を行う。
論文 参考訳(メタデータ) (2023-12-10T07:38:56Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Differentially Private Language Models for Secure Data Sharing [19.918137395199224]
本稿では,生成言語モデルを個別に学習し,その結果を抽出する方法について述べる。
自然言語のプロンプトと新しいプロンプトミスマッチの損失を用いることで、高度に正確で流動的なテキストデータセットを作成できる。
我々は、我々の合成データセットが元のデータから情報を漏らさず、言語質が高いことを示す徹底的な実験を行う。
論文 参考訳(メタデータ) (2022-10-25T11:12:56Z) - Don't Generate Me: Training Differentially Private Generative Models
with Sinkhorn Divergence [73.14373832423156]
そこで我々はDP-Sinkhornを提案する。DP-Sinkhornは個人データからデータ分布を差分プライバシで学習するための新しいトランスポートベース生成手法である。
差分的にプライベートな生成モデルを訓練するための既存のアプローチとは異なり、我々は敵の目的に頼らない。
論文 参考訳(メタデータ) (2021-11-01T18:10:21Z) - P3GM: Private High-Dimensional Data Release via Privacy Preserving
Phased Generative Model [23.91327154831855]
本稿では,プライバシ保護型位相生成モデル(P3GM)を提案する。
P3GMは2段階の学習プロセスを採用し、ノイズに対して堅牢にし、学習効率を向上させる。
最先端の手法と比較して、生成したサンプルはノイズが少なく、データ多様性の観点からも元のデータに近いように見える。
論文 参考訳(メタデータ) (2020-06-22T09:47:54Z) - GS-WGAN: A Gradient-Sanitized Approach for Learning Differentially
Private Generators [74.16405337436213]
我々は、GS-WGAN(Gradient-sanitized Wasserstein Generative Adrial Networks)を提案する。
GS-WGANは、厳格なプライバシー保証を備えた機密データの衛生的な形式での公開を可能にする。
このアプローチは、複数のメトリクスにわたる最先端のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2020-06-15T10:01:01Z) - Generating Higher-Fidelity Synthetic Datasets with Privacy Guarantees [34.01962235805095]
データアノテーションやインスペクションなど,一般的な機械学習開発タスクにおけるユーザのプライバシ向上の課題を考察する。
我々はベイズ微分プライバシーを、より優れたプライバシー利用トレードオフを提供しながら厳密な理論的保証を達成する手段として採用することを提案する。
論文 参考訳(メタデータ) (2020-03-02T16:23:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。