論文の概要: Synthetic Dataset Generation for Privacy-Preserving Machine Learning
- arxiv url: http://arxiv.org/abs/2210.03205v1
- Date: Thu, 6 Oct 2022 20:54:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 12:40:54.629058
- Title: Synthetic Dataset Generation for Privacy-Preserving Machine Learning
- Title(参考訳): プライバシ保護機械学習のための合成データセット生成
- Authors: Efstathia Soufleri, Gobinda Saha, Kaushik Roy
- Abstract要約: 本稿では,従来のプライベートデータセットからセキュアな合成データセットを生成する手法を提案する。
提案手法は,様々なプライバシー侵害攻撃下でデータプライバシを保護していることを示す。
- 参考スコア(独自算出の注目度): 7.489265323050362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Learning (ML) has achieved enormous success in solving a variety of
problems in computer vision, speech recognition, object detection, to name a
few. The principal reason for this success is the availability of huge datasets
for training deep neural networks (DNNs). However, datasets cannot be publicly
released if they contain sensitive information such as medical records, and
data privacy becomes a major concern. Encryption methods could be a possible
solution, however their deployment on ML applications seriously impacts
classification accuracy and results in substantial computational overhead.
Alternatively, obfuscation techniques could be used, but maintaining a good
trade-off between visual privacy and accuracy is challenging. In this paper, we
propose a method to generate secure synthetic datasets from the original
private datasets. Given a network with Batch Normalization (BN) layers
pretrained on the original dataset, we first record the class-wise BN layer
statistics. Next, we generate the synthetic dataset by optimizing random noise
such that the synthetic data match the layer-wise statistical distribution of
original images. We evaluate our method on image classification datasets
(CIFAR10, ImageNet) and show that synthetic data can be used in place of the
original CIFAR10/ImageNet data for training networks from scratch, producing
comparable classification performance. Further, to analyze visual privacy
provided by our method, we use Image Quality Metrics and show high degree of
visual dissimilarity between the original and synthetic images. Moreover, we
show that our proposed method preserves data-privacy under various
privacy-leakage attacks including Gradient Matching Attack, Model Memorization
Attack, and GAN-based Attack.
- Abstract(参考訳): 機械学習(ML)は、コンピュータビジョン、音声認識、オブジェクト検出といった様々な問題を解決することで、大きな成功を収めている。
この成功の主な理由は、ディープニューラルネットワーク(DNN)をトレーニングするための巨大なデータセットが利用可能になったことだ。
しかし、医療記録などの機密情報を含むデータセットは公開されず、データのプライバシが大きな関心事となる。
暗号化メソッドは可能なソリューションだが、MLアプリケーションへのデプロイは、分類精度に深刻な影響を与え、計算オーバーヘッドが大幅に増加する。
あるいは、難読化テクニックを使うこともできるが、視覚的プライバシと精度のトレードオフを維持することは難しい。
本稿では,元のプライベートデータセットからセキュアな合成データセットを生成する手法を提案する。
バッチ正規化(BN)層を持つネットワークが元のデータセットで事前訓練された場合、まずクラスワイズBN層統計を記録する。
次に、合成データが原画像の層別統計分布と一致するようにランダムノイズを最適化して合成データセットを生成する。
本研究では,画像分類データセット (CIFAR10, ImageNet) について評価し,CIFAR10/ImageNetデータの代わりに合成データをスクラッチからトレーニングし,同等の分類性能が得られることを示す。
さらに,本手法による視覚プライバシの分析には,画像品質指標を用い,オリジナル画像と合成画像との視覚的類似度を高く評価する。
さらに,本提案手法は,グラディエントマッチング攻撃,モデル記憶攻撃,GANベースの攻撃など,様々なプライバシー侵害攻撃の下でデータプライバシを保持する。
関連論文リスト
- DataDream: Few-shot Guided Dataset Generation [90.09164461462365]
実データ分布をより忠実に表現する分類データセットを合成するためのフレームワークを提案する。
DataDream fine-tunes LoRA weights for the image generation model on the few real image before generated the training data using the adapt model。
次に、合成データを用いてCLIPのLoRA重みを微調整し、様々なデータセットに対する以前のアプローチよりも下流画像の分類を改善する。
論文 参考訳(メタデータ) (2024-07-15T17:10:31Z) - Federated Face Forgery Detection Learning with Personalized Representation [63.90408023506508]
ディープジェネレータ技術は、区別がつかない高品質のフェイクビデオを制作し、深刻な社会的脅威をもたらす可能性がある。
従来の偽造検出手法は、データを直接集中的に訓練する。
本稿では,個人化表現を用いた新しいフェデレーション顔偽造検出学習を提案する。
論文 参考訳(メタデータ) (2024-06-17T02:20:30Z) - Integrating kNN with Foundation Models for Adaptable and Privacy-Aware
Image Classification [0.13108652488669734]
従来のディープラーニングモデルは、その透明性とデータ変更に適応する能力を制限する知識を暗黙的にエンコードする。
モデル重みとは無関係に、基礎となるトレーニングデータの埋め込みを格納することで、この制限に対処する。
提案手法では,k$-Nearest Neighbor(k$-NN)分類器を視覚ベース基盤モデルに統合し,自然画像に基づいて事前学習を行う。
論文 参考訳(メタデータ) (2024-02-19T20:08:13Z) - PrivImage: Differentially Private Synthetic Image Generation using Diffusion Models with Semantic-Aware Pretraining [13.823621924706348]
差分プライバシー(DP)画像データ合成により、企業はプライバシの懸念なしに合成画像を共有し、利用することができる。
従来の手法では、生成モデルの高度な技術と、公開データセットでの事前学習を取り入れて、例外的なDP画像データを生成する。
本稿では,事前学習データを慎重に選択する新しいDP画像合成手法PRIVIMAGEを提案する。
論文 参考訳(メタデータ) (2023-10-19T14:04:53Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Attribute-preserving Face Dataset Anonymization via Latent Code
Optimization [64.4569739006591]
本稿では,事前学習したGANの潜時空間における画像の潜時表現を直接最適化するタスク非依存匿名化手法を提案する。
我々は一連の実験を通して、我々の手法が画像の同一性を匿名化できる一方で、顔の属性をより保存できることを実証した。
論文 参考訳(メタデータ) (2023-03-20T17:34:05Z) - ConfounderGAN: Protecting Image Data Privacy with Causal Confounder [85.6757153033139]
本稿では,GAN(Generative Adversarial Network)のConfounderGANを提案する。
実験は、3つの自然なオブジェクトデータセットと3つの医療データセットからなる6つの画像分類データセットで実施される。
論文 参考訳(メタデータ) (2022-12-04T08:49:14Z) - Content-Aware Differential Privacy with Conditional Invertible Neural
Networks [0.7102341019971402]
Invertible Neural Networks (INNs) は、正確な精度を定量化しながら、優れた生成性能を示した。
INNの潜在空間に雑音を加えることで、差分プライベートな画像修正が可能になるという仮説を立てる。
利用可能なベンチマークデータセットと専用の医療データセットの実験を行います。
論文 参考訳(メタデータ) (2022-07-29T11:52:16Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。