Fugu-MT 論文翻訳(概要): Meticulously Selecting 1% of the Dataset for Pre-training! Generating Differentially Private Images Data with Semantics Query

論文の概要: Meticulously Selecting 1% of the Dataset for Pre-training! Generating Differentially Private Images Data with Semantics Query

arxiv url: http://arxiv.org/abs/2311.12850v1
Date: Thu, 19 Oct 2023 14:04:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-27 00:35:48.318569
Title: Meticulously Selecting 1% of the Dataset for Pre-training! Generating Differentially Private Images Data with Semantics Query
Title（参考訳）: トレーニング前のデータセットの1%を慎重に選択! セマンティクスクエリを用いた差分プライベート画像データの生成
Authors: Kecen Li, Chen Gong, Zhixiang Li, Yuzhong Zhao, Xinwen Hou, Tianhao Wang
Abstract要約: 差分プライバシー(DP)画像データ合成により、企業はプライバシの懸念なしに合成画像を共有し、利用することができる。従来の手法では、生成モデルの高度な技術と、公開データセットでの事前学習を取り入れて、例外的なDP画像データを生成する。本稿では,事前学習データを慎重に選択する新しいDP画像合成手法PRIVIMAGEを提案する。
参考スコア（独自算出の注目度）: 14.647728499367505
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Differential Privacy (DP) image data synthesis, which leverages the DP technique to generate synthetic data to replace the sensitive data, allowing organizations to share and utilize synthetic images without privacy concerns. Previous methods incorporate the advanced techniques of generative models and pre-training on a public dataset to produce exceptional DP image data, but suffer from problems of unstable training and massive computational resource demands. This paper proposes a novel DP image synthesis method, termed PRIVIMAGE, which meticulously selects pre-training data, promoting the efficient creation of DP datasets with high fidelity and utility. PRIVIMAGE first establishes a semantic query function using a public dataset. Then, this function assists in querying the semantic distribution of the sensitive dataset, facilitating the selection of data from the public dataset with analogous semantics for pre-training. Finally, we pre-train an image generative model using the selected data and then fine-tune this model on the sensitive dataset using Differentially Private Stochastic Gradient Descent (DP-SGD). PRIVIMAGE allows us to train a lightly parameterized generative model, reducing the noise in the gradient during DP-SGD training and enhancing training stability. Extensive experiments demonstrate that PRIVIMAGE uses only 1% of the public dataset for pre-training and 7.6% of the parameters in the generative model compared to the state-of-the-art method, whereas achieves superior synthetic performance and conserves more computational resources. On average, PRIVIMAGE achieves 30.1% lower FID and 12.6% higher Classification Accuracy than the state-of-the-art method. The replication package and datasets can be accessed online.
Abstract（参考訳）: 差分プライバシー(DP)画像データ合成(DP)は、DP技術を活用して、機密データを置き換える合成データを生成する。従来の手法では、生成モデルの高度な技術と、公開データセット上で事前トレーニングを行い、例外的なDP画像データを生成するが、不安定なトレーニングや膨大な計算リソース要求の問題がある。本稿では,プリトレーニングデータを細心の注意を払って選択し,高忠実度かつ実用性の高いdpデータセットの効率的な作成を促進する,新しいdp画像合成手法であるprivimageを提案する。 PRIVIMAGEはまず、公開データセットを使用してセマンティッククエリ関数を確立する。そして、この機能はセンシティブなデータセットのセマンティクス分布の問い合わせを支援し、事前トレーニングのための類似のセマンティクスを持つ公開データセットからのデータの選択を容易にする。最後に,選択したデータを用いて画像生成モデルを事前学習し,そのデータをDP-SGD(differially Private Stochastic Gradient Descent)を用いてセンシティブなデータセット上で微調整する。 PRIVIMAGE は,DP-SGD トレーニング中の勾配の雑音を低減し,学習安定性の向上を図る。広範な実験により、privimageは事前学習のために公開データセットの1%しか使用せず、生成モデルのパラメータの7.6%が最先端の手法よりも優れた合成性能を達成し、より多くの計算資源を保存できることが示されている。 PRIVIMAGEは平均30.1%低いFIDと12.6%高い分類精度を達成した。レプリケーションパッケージとデータセットはオンラインでアクセス可能だ。

関連論文リスト

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method [64.05966759056122]
表情認識(FER)モデルは、ヒューマンコンピュータのインタラクションや医療モニタリングなど、多くのビデオベースの感情コンピューティングアプリケーションで採用されている。ディープFERモデルは、しばしば微妙な表現と高いオブジェクト間の変動に悩まされ、現実世界のアプリケーションでの性能を制限します。本稿では、ソースデータが適応できない難題に対処し、中性表現のみからなるラベル付きターゲットデータのみを利用可能とする。潜在空間を翻訳することで、PFTは表情生成の複雑さやノイズを回避し、分類に最適化された識別的埋め込みを生成する。
論文参考訳（メタデータ） (2025-08-08T20:13:50Z)
Improving Noise Efficiency in Privacy-preserving Dataset Distillation [59.57846442477106]
本稿では,最適化からサンプリングを分離してコンバージェンスを向上し,信号品質を向上させる新しいフレームワークを提案する。 CIFAR-10では,従来の最先端手法の蒸留セットサイズを5分の1に減らして,クラス毎50イメージでtextbf10.0%,クラス毎50イメージで textbf8.3%向上した。
論文参考訳（メタデータ） (2025-08-03T13:15:52Z)
Private Training & Data Generation by Clustering Embeddings [74.00687214400021]
差分プライバシー(DP)は、個々のデータを保護するための堅牢なフレームワークを提供する。本稿では,DP合成画像埋め込み生成のための新しい原理的手法を提案する。経験的に、合成的に生成された埋め込みに基づいて訓練された単純な2層ニューラルネットワークは、最先端(SOTA)分類の精度を達成する。
論文参考訳（メタデータ） (2025-06-20T00:17:14Z)
When Model Knowledge meets Diffusion Model: Diffusion-assisted Data-free Image Synthesis with Alignment of Domain and Class [18.81528537866941]
オープンソースで事前トレーニングされたモデルは、多様なアプリケーションにとって大きな可能性を秘めているが、トレーニングデータが利用できない場合には、その実用性は低下する。データ自由画像合成(DFIS)は、学習済みモデルの学習データ分布を元のデータにアクセスすることなく近似した画像を生成することを目的としている。 DDISはDiffusion-assisted Data-free Image Synthesis法として,テキストから画像への拡散モデルを利用した最初の画像合成法である。
論文参考訳（メタデータ） (2025-06-18T11:51:40Z)
Scalable Ranked Preference Optimization for Text-to-Image Generation [76.16285931871948]
DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
論文参考訳（メタデータ） (2024-10-23T16:42:56Z)
DataDream: Few-shot Guided Dataset Generation [90.09164461462365]
実データ分布をより忠実に表現する分類データセットを合成するためのフレームワークを提案する。 DataDream fine-tunes LoRA weights for the image generation model on the few real image before generated the training data using the adapt model。次に、合成データを用いてCLIPのLoRA重みを微調整し、様々なデータセットに対する以前のアプローチよりも下流画像の分類を改善する。
論文参考訳（メタデータ） (2024-07-15T17:10:31Z)
Differentially Private Fine-Tuning of Diffusion Models [22.454127503937883]
微分プライバシーと拡散モデル(DM)の統合は、有望だが挑戦的なフロンティアを示している。この分野での最近の進歩は、公開データによる事前学習によって高品質な合成データを生成する可能性を強調している。本稿では,プライバシとユーティリティのトレードオフを高めるために,トレーニング可能なパラメータの数を最小限に抑える,プライベート拡散モデルに最適化された戦略を提案する。
論文参考訳（メタデータ） (2024-06-03T14:18:04Z)
HYPE: Hyperbolic Entailment Filtering for Underspecified Images and Texts [49.21764163995419]
本稿では,HyPerbolic Entailment Filtering (HYPE)を導入し,ノイズの多い画像とテキストのペアのデータセットから有意で整合したデータを抽出する。 HYPEは、フィルタリング効率を大幅に改善するだけでなく、DataCompベンチマークで新しい最先端を設定できる。このブレークスルーは、HYPEがデータ選択プロセスを洗練させる可能性を示し、より正確で効率的な自己教師型学習モデルの開発に寄与する。
論文参考訳（メタデータ） (2024-04-26T16:19:55Z)
NaturalInversion: Data-Free Image Synthesis Improving Real-World Consistency [1.1470070927586016]
実データを用いずに元のデータ分布とよく一致した画像を合成する新しいモデル逆変換法であるNaturalInversionを紹介する。我々の画像は、視覚化と追加分析による以前の作業よりも、元のデータ分布に一貫性があることが示される。
論文参考訳（メタデータ） (2023-06-29T03:43:29Z)
Harnessing large-language models to generate private synthetic text [18.863579044812703]
DP-SGDのような異なるプライベートトレーニングアルゴリズムは、トレーニングされたモデルがプライベート情報を公開しないことを保証することで、センシティブなトレーニングデータを保護する。本稿では、原データに対して差分的にプライベートな合成データを生成し、その合成データに基づいてモデルを非プライベートに訓練する代替手法について検討する。プライベートな合成データを作るのはプライベートなモデルを訓練するよりはるかに難しい
論文参考訳（メタデータ） (2023-06-02T16:59:36Z)
Differentially Private Diffusion Models Generate Useful Synthetic Images [53.94025967603649]
近年の研究では、いくつかの拡散モデルの出力がトレーニングデータのプライバシを保持していないことが報告されている。 CIFAR-10 と Camelyon17 のSOTA 結果を得た。以上の結果から,差分プライバシーで微調整された拡散モデルが有用かつ実証可能なプライベートな合成データを生成できることが示唆された。
論文参考訳（メタデータ） (2023-02-27T15:02:04Z)
Cluster-level pseudo-labelling for source-free cross-domain facial expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-10-11T08:24:50Z)
Synthetic Dataset Generation for Privacy-Preserving Machine Learning [7.489265323050362]
本稿では,従来のプライベートデータセットからセキュアな合成データセットを生成する手法を提案する。提案手法は,様々なプライバシー侵害攻撃下でデータプライバシを保護していることを示す。
論文参考訳（メタデータ） (2022-10-06T20:54:52Z)
Commonality in Natural Images Rescues GANs: Pretraining GANs with Generic and Privacy-free Synthetic Data [17.8055398673228]
本稿では,自然画像の一般的な特徴に着想を得た,効果的で偏りのないデータ合成手法を提案する。我々のシンセサイザーは、自然画像の一般的な性質のみを考慮しているため、データセット上で事前訓練された単一のモデルは、一貫して様々なターゲットデータセットに転送することができる。
論文参考訳（メタデータ） (2022-04-11T08:51:17Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。