論文の概要: Meticulously Selecting 1% of the Dataset for Pre-training! Generating
Differentially Private Images Data with Semantics Query
- arxiv url: http://arxiv.org/abs/2311.12850v1
- Date: Thu, 19 Oct 2023 14:04:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 00:35:48.318569
- Title: Meticulously Selecting 1% of the Dataset for Pre-training! Generating
Differentially Private Images Data with Semantics Query
- Title(参考訳): トレーニング前のデータセットの1%を慎重に選択!
セマンティクスクエリを用いた差分プライベート画像データの生成
- Authors: Kecen Li, Chen Gong, Zhixiang Li, Yuzhong Zhao, Xinwen Hou, Tianhao
Wang
- Abstract要約: 差分プライバシー(DP)画像データ合成により、企業はプライバシの懸念なしに合成画像を共有し、利用することができる。
従来の手法では、生成モデルの高度な技術と、公開データセットでの事前学習を取り入れて、例外的なDP画像データを生成する。
本稿では,事前学習データを慎重に選択する新しいDP画像合成手法PRIVIMAGEを提案する。
- 参考スコア(独自算出の注目度): 14.647728499367505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Differential Privacy (DP) image data synthesis, which leverages the DP
technique to generate synthetic data to replace the sensitive data, allowing
organizations to share and utilize synthetic images without privacy concerns.
Previous methods incorporate the advanced techniques of generative models and
pre-training on a public dataset to produce exceptional DP image data, but
suffer from problems of unstable training and massive computational resource
demands. This paper proposes a novel DP image synthesis method, termed
PRIVIMAGE, which meticulously selects pre-training data, promoting the
efficient creation of DP datasets with high fidelity and utility. PRIVIMAGE
first establishes a semantic query function using a public dataset. Then, this
function assists in querying the semantic distribution of the sensitive
dataset, facilitating the selection of data from the public dataset with
analogous semantics for pre-training. Finally, we pre-train an image generative
model using the selected data and then fine-tune this model on the sensitive
dataset using Differentially Private Stochastic Gradient Descent (DP-SGD).
PRIVIMAGE allows us to train a lightly parameterized generative model, reducing
the noise in the gradient during DP-SGD training and enhancing training
stability. Extensive experiments demonstrate that PRIVIMAGE uses only 1% of the
public dataset for pre-training and 7.6% of the parameters in the generative
model compared to the state-of-the-art method, whereas achieves superior
synthetic performance and conserves more computational resources. On average,
PRIVIMAGE achieves 30.1% lower FID and 12.6% higher Classification Accuracy
than the state-of-the-art method. The replication package and datasets can be
accessed online.
- Abstract(参考訳): 差分プライバシー(DP)画像データ合成(DP)は、DP技術を活用して、機密データを置き換える合成データを生成する。
従来の手法では、生成モデルの高度な技術と、公開データセット上で事前トレーニングを行い、例外的なDP画像データを生成するが、不安定なトレーニングや膨大な計算リソース要求の問題がある。
本稿では,プリトレーニングデータを細心の注意を払って選択し,高忠実度かつ実用性の高いdpデータセットの効率的な作成を促進する,新しいdp画像合成手法であるprivimageを提案する。
PRIVIMAGEはまず、公開データセットを使用してセマンティッククエリ関数を確立する。
そして、この機能はセンシティブなデータセットのセマンティクス分布の問い合わせを支援し、事前トレーニングのための類似のセマンティクスを持つ公開データセットからのデータの選択を容易にする。
最後に,選択したデータを用いて画像生成モデルを事前学習し,そのデータをDP-SGD(differially Private Stochastic Gradient Descent)を用いてセンシティブなデータセット上で微調整する。
PRIVIMAGE は,DP-SGD トレーニング中の勾配の雑音を低減し,学習安定性の向上を図る。
広範な実験により、privimageは事前学習のために公開データセットの1%しか使用せず、生成モデルのパラメータの7.6%が最先端の手法よりも優れた合成性能を達成し、より多くの計算資源を保存できることが示されている。
PRIVIMAGEは平均30.1%低いFIDと12.6%高い分類精度を達成した。
レプリケーションパッケージとデータセットはオンラインでアクセス可能だ。
関連論文リスト
- DP-Mix: Mixup-based Data Augmentation for Differentially Private
Learning [10.971246386083884]
本稿では,差分学習の制約に特化して設計された2つの新しいデータ拡張手法を提案する。
我々の最初のテクニックであるDP-Mix_Selfは、自己拡張データにミキサアップを施すことにより、さまざまなデータセットと設定にわたるSoTA分類性能を達成する。
第2の手法であるDP-Mix_Diffは、事前学習した拡散モデルから合成データを混合プロセスに組み込むことにより、さらなる性能向上を図る。
論文 参考訳(メタデータ) (2023-11-02T15:12:12Z) - NaturalInversion: Data-Free Image Synthesis Improving Real-World
Consistency [1.1470070927586016]
実データを用いずに元のデータ分布とよく一致した画像を合成する新しいモデル逆変換法であるNaturalInversionを紹介する。
我々の画像は、視覚化と追加分析による以前の作業よりも、元のデータ分布に一貫性があることが示される。
論文 参考訳(メタデータ) (2023-06-29T03:43:29Z) - Harnessing large-language models to generate private synthetic text [18.863579044812703]
DP-SGDのような異なるプライベートトレーニングアルゴリズムは、トレーニングされたモデルがプライベート情報を公開しないことを保証することで、センシティブなトレーニングデータを保護する。
本稿では、原データに対して差分的にプライベートな合成データを生成し、その合成データに基づいてモデルを非プライベートに訓練する代替手法について検討する。
プライベートな合成データを作るのは プライベートなモデルを訓練するより はるかに難しい
論文 参考訳(メタデータ) (2023-06-02T16:59:36Z) - Differentially Private Diffusion Models Generate Useful Synthetic Images [53.94025967603649]
近年の研究では、いくつかの拡散モデルの出力がトレーニングデータのプライバシを保持していないことが報告されている。
CIFAR-10 と Camelyon17 のSOTA 結果を得た。
以上の結果から,差分プライバシーで微調整された拡散モデルが有用かつ実証可能なプライベートな合成データを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-02-27T15:02:04Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Synthetic Dataset Generation for Privacy-Preserving Machine Learning [7.489265323050362]
本稿では,従来のプライベートデータセットからセキュアな合成データセットを生成する手法を提案する。
提案手法は,様々なプライバシー侵害攻撃下でデータプライバシを保護していることを示す。
論文 参考訳(メタデータ) (2022-10-06T20:54:52Z) - Commonality in Natural Images Rescues GANs: Pretraining GANs with
Generic and Privacy-free Synthetic Data [17.8055398673228]
本稿では,自然画像の一般的な特徴に着想を得た,効果的で偏りのないデータ合成手法を提案する。
我々のシンセサイザーは、自然画像の一般的な性質のみを考慮しているため、データセット上で事前訓練された単一のモデルは、一貫して様々なターゲットデータセットに転送することができる。
論文 参考訳(メタデータ) (2022-04-11T08:51:17Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。