論文の概要: Private Training & Data Generation by Clustering Embeddings
- arxiv url: http://arxiv.org/abs/2506.16661v1
- Date: Fri, 20 Jun 2025 00:17:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.297977
- Title: Private Training & Data Generation by Clustering Embeddings
- Title(参考訳): クラスタリング埋め込みによるプライベートトレーニングとデータ生成
- Authors: Felix Zhou, Samson Zhou, Vahab Mirrokni, Alessandro Epasto, Vincent Cohen-Addad,
- Abstract要約: 差分プライバシー(DP)は、個々のデータを保護するための堅牢なフレームワークを提供する。
本稿では,DP合成画像埋め込み生成のための新しい原理的手法を提案する。
経験的に、合成的に生成された埋め込みに基づいて訓練された単純な2層ニューラルネットワークは、最先端(SOTA)分類の精度を達成する。
- 参考スコア(独自算出の注目度): 74.00687214400021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks often use large, high-quality datasets to achieve high performance on many machine learning tasks. When training involves potentially sensitive data, this process can raise privacy concerns, as large models have been shown to unintentionally memorize and reveal sensitive information, including reconstructing entire training samples. Differential privacy (DP) provides a robust framework for protecting individual data and in particular, a new approach to privately training deep neural networks is to approximate the input dataset with a privately generated synthetic dataset, before any subsequent training algorithm. We introduce a novel principled method for DP synthetic image embedding generation, based on fitting a Gaussian Mixture Model (GMM) in an appropriate embedding space using DP clustering. Our method provably learns a GMM under separation conditions. Empirically, a simple two-layer neural network trained on synthetically generated embeddings achieves state-of-the-art (SOTA) classification accuracy on standard benchmark datasets. Additionally, we demonstrate that our method can generate realistic synthetic images that achieve downstream classification accuracy comparable to SOTA methods. Our method is quite general, as the encoder and decoder modules can be freely substituted to suit different tasks. It is also highly scalable, consisting only of subroutines that scale linearly with the number of samples and/or can be implemented efficiently in distributed systems.
- Abstract(参考訳): ディープニューラルネットワークは、多くの機械学習タスクで高いパフォーマンスを達成するために、大きくて高品質なデータセットを使用することが多い。
トレーニングが潜在的にセンシティブなデータに関わる場合、このプロセスはプライバシー上の懸念を引き起こす可能性がある。
差分プライバシー(DP)は、個々のデータを保護するための堅牢なフレームワークを提供する。特に、ディープニューラルネットワークをプライベートにトレーニングするための新しいアプローチは、入力データセットを、その後のトレーニングアルゴリズムの前にプライベートに生成された合成データセットに近似することである。
本稿では,DPクラスタリングを用いたガウス混合モデル(GMM)を適切な埋め込み空間に適合させたDP合成画像の埋め込み生成法を提案する。
本手法は分離条件下でGMMを確実に学習する。
経験的に、合成的に生成された埋め込みに基づいてトレーニングされた単純な2層ニューラルネットワークは、標準ベンチマークデータセットの最先端(SOTA)分類精度を達成する。
さらに,本手法は,SOTA法に匹敵する下流分類精度を実現するために,現実的な合成画像を生成することができることを示した。
エンコーダモジュールとデコーダモジュールは、異なるタスクに合うように自由に置換できるので、非常に一般的な方法です。
また、非常にスケーラブルで、サンプル数と線形にスケールするサブルーチンのみで構成され、分散システムで効率的に実装できる。
関連論文リスト
- Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels [59.66777287810985]
プライバシとユーティリティのための情報理論スコアを導入し、不誠実なユーザの平均パフォーマンスを定量化する。
次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。
論文 参考訳(メタデータ) (2023-03-31T18:03:53Z) - Learning from Data with Noisy Labels Using Temporal Self-Ensemble [11.245833546360386]
ディープニューラルネットワーク(DNN)はノイズラベルを記憶する膨大な能力を持つ。
現在最先端の手法では、損失の少ないサンプルを用いて二重ネットワークを訓練するコトレーニング方式が提案されている。
本稿では,単一のネットワークのみをトレーニングすることで,シンプルで効果的なロバストトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T08:16:31Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Learning a Self-Expressive Network for Subspace Clustering [15.096251922264281]
本稿では,データ表現の自己表現を学習するために,適切に設計されたニューラルネットワークを用いた,自己表現型ネットワーク(SENet)と呼ばれる,サブスペースクラスタリングのための新しいフレームワークを提案する。
私たちのSENetは、トレーニングデータに望ましい特性を持つ自己表現係数を学習するだけでなく、サンプル外のデータも処理します。
特に、SENetはMNIST、Fashion MNIST、Extended MNISTで高い競争力を発揮し、CIFAR-10で最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-10-08T18:06:06Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Dataset Meta-Learning from Kernel Ridge-Regression [18.253682891579402]
Kernel Inducing Points (KIP) はデータセットを1桁から2桁に圧縮することができる。
KIP学習データセットは、遅延学習体制を超えても有限幅ニューラルネットワークのトレーニングに転送可能である。
論文 参考訳(メタデータ) (2020-10-30T18:54:04Z) - An Online Learning Algorithm for a Neuro-Fuzzy Classifier with
Mixed-Attribute Data [9.061408029414455]
General Fuzzy min-max Neural Network (GFMMNN) は、データ分類のための効率的な神経ファジィシステムの一つである。
本稿ではGFMMNNのための拡張オンライン学習アルゴリズムを提案する。
提案手法は連続的特徴と分類的特徴の両方でデータセットを処理できる。
論文 参考訳(メタデータ) (2020-09-30T13:45:36Z) - Dataset Condensation with Gradient Matching [36.14340188365505]
本研究では,大規模なデータセットを,深層ニューラルネットワークをスクラッチからトレーニングするための情報的合成サンプルの小さなセットに凝縮させることを学習する,データセット凝縮という,データ効率のよい学習のためのトレーニングセット合成手法を提案する。
いくつかのコンピュータビジョンベンチマークでその性能を厳格に評価し、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-10T16:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。