論文の概要: Label differential privacy via clustering
- arxiv url: http://arxiv.org/abs/2110.02159v1
- Date: Tue, 5 Oct 2021 16:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 17:10:34.938268
- Title: Label differential privacy via clustering
- Title(参考訳): クラスタリングによるラベル差分プライバシー
- Authors: Hossein Esfandiari, Vahab Mirrokni, Umar Syed, Sergei Vassilvitskii
- Abstract要約: トレーニングセット内のラベルのプライバシのみを保護する差分プライベート機械学習のための新しいメカニズムを提案する。
提案機構は,これらの特徴ベクトルを用いてトレーニングセット内のサンプルをクラスタリングし,同一クラスタ内のサンプルから各ラベルをランダムに再サンプリングし,ノイズラベルと真の損失関数の修正版を出力する。
クラスタが大規模かつ高品質である場合、ノイズの多いトレーニングセットにおける変更損失を最小限に抑えるモデルが、非プライベート学習の速度に匹敵する速度で小さな過剰リスクに収束することを示す。
- 参考スコア(独自算出の注目度): 27.485176618438842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present new mechanisms for \emph{label differential privacy}, a relaxation
of differentially private machine learning that only protects the privacy of
the labels in the training set. Our mechanisms cluster the examples in the
training set using their (non-private) feature vectors, randomly re-sample each
label from examples in the same cluster, and output a training set with noisy
labels as well as a modified version of the true loss function. We prove that
when the clusters are both large and high-quality, the model that minimizes the
modified loss on the noisy training set converges to small excess risk at a
rate that is comparable to the rate for non-private learning. We describe both
a centralized mechanism in which the entire training set is stored by a trusted
curator, and a distributed mechanism where each user stores a single labeled
example and replaces her label with the label of a randomly selected user from
the same cluster. We also describe a learning problem in which large clusters
are necessary to achieve both strong privacy and either good precision or good
recall. Our experiments show that randomizing the labels within each cluster
significantly improves the privacy vs. accuracy trade-off compared to applying
uniform randomized response to the labels, and also compared to learning a
model via DP-SGD.
- Abstract(参考訳): トレーニングセット内のラベルのプライバシのみを保護する差分プライベート機械学習の緩和である,‘emph{label differential privacy} の新たなメカニズムを提案する。
当社のメカニズムでは、(非プライベートな)特徴ベクトルを使用してトレーニングセット内のサンプルをクラスタ化し、同じクラスタ内のサンプルから各ラベルをランダムに再サンプリングし、ノイズラベルを備えたトレーニングセットと真の損失関数の修正版を出力する。
クラスタが大規模かつ高品質である場合、ノイズの多いトレーニングセットにおける変更損失を最小限に抑えるモデルが、非プライベート学習の速度に匹敵する速度で小さな過剰リスクに収束することを示す。
学習セット全体を信頼できるキュレーターによって格納する集中型機構と、各ユーザが単一のラベル付きサンプルを格納し、そのラベルを同じクラスタからランダムに選択したユーザのラベルに置き換える分散機構の両方について述べる。
また,強力なプライバシと精度,リコールの両立のために,大規模クラスタが必要となる学習問題についても述べる。
実験の結果,各クラスタ内のラベルのランダム化は,ラベルに一様ランダム化応答を適用するよりも,プライバシーと精度のトレードオフを著しく改善し,DP-SGDによるモデル学習と比較した。
関連論文リスト
- Federated Learning with Only Positive Labels by Exploring Label Correlations [78.59613150221597]
フェデレートラーニングは、プライバシー上の制約の下で複数のユーザのデータを使用することで、モデルを協調的に学習することを目的としている。
本稿では,フェデレート学習環境下でのマルチラベル分類問題について検討する。
ラベル相関(FedALC)を探索してフェデレート平均化(Federated Averaging)と呼ばれる新しい,汎用的な手法を提案する。
論文 参考訳(メタデータ) (2024-04-24T02:22:50Z) - Pairwise Similarity Distribution Clustering for Noisy Label Learning [0.0]
ノイズラベル学習は、ノイズラベルを持つ大量のサンプルを使用してディープニューラルネットワークをトレーニングすることを目的としている。
トレーニングサンプルを1つのクリーンなセットと別のノイズのあるセットに分割する,単純で効果的なサンプル選択アルゴリズムを提案する。
CIFAR-10、CIFAR-100、Clothing1Mといった様々なベンチマークデータセットの実験結果は、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-04-02T11:30:22Z) - Exploring Vacant Classes in Label-Skewed Federated Learning [113.65301899666645]
クライアント間の局所的なラベル分布の相違を特徴とするラベルスキューは、連合学習において大きな課題となる。
本稿では, ラベルスキュード・フェデレート学習における新しい手法であるFedVLSについて紹介する。
論文 参考訳(メタデータ) (2024-01-04T16:06:31Z) - Optimal Unbiased Randomizers for Regression with Label Differential
Privacy [61.63619647307816]
ラベル差分プライバシ(DP)の制約の下で回帰モデルをトレーニングするためのラベルランダム化器の新たなファミリーを提案する。
これらのランダム化器は、いくつかのデータセット上で最先端のプライバシユーティリティトレードオフを実現することを実証する。
論文 参考訳(メタデータ) (2023-12-09T19:58:34Z) - Label Inference Attack against Split Learning under Regression Setting [24.287752556622312]
回帰モデルのシナリオにおいて,プライベートラベルが連続数である場合の漏洩について検討する。
グラデーション情報と追加学習正規化目標を統合した,新たな学習ベースアタックを提案する。
論文 参考訳(メタデータ) (2023-01-18T03:17:24Z) - Regularizing Neural Network Training via Identity-wise Discriminative
Feature Suppression [20.89979858757123]
トレーニングサンプルの数が少ない場合、あるいはクラスラベルがうるさい場合、ネットワークはトレーニングエラーを最小限に抑えるために個々のインスタンス固有のパターンを記憶する傾向がある。
本稿では、経験的エラー最小化のために、インスタンス固有のパターンに依存するネットワークの傾向を抑えることで、改善策を検討する。
論文 参考訳(メタデータ) (2022-09-29T05:14:56Z) - Mixed Differential Privacy in Computer Vision [133.68363478737058]
AdaMixは、プライベートとパブリックの両方の画像データを使用して、ディープニューラルネットワーク分類器をトレーニングするための適応型微分プライベートアルゴリズムである。
プライベートデータを無視する数ショットあるいはゼロショットの学習ベースラインは、大規模なプライベートデータセットの微調整よりも優れています。
論文 参考訳(メタデータ) (2022-03-22T06:15:43Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。