論文の概要: Differential Privacy Under Class Imbalance: Methods and Empirical Insights
- arxiv url: http://arxiv.org/abs/2411.05733v1
- Date: Fri, 08 Nov 2024 17:46:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:54:36.491759
- Title: Differential Privacy Under Class Imbalance: Methods and Empirical Insights
- Title(参考訳): 階級不均衡下における差別的プライバシ : 方法と実証的考察
- Authors: Lucas Rosenblatt, Yuliia Lut, Eitan Turok, Marco Avella-Medina, Rachel Cummings,
- Abstract要約: 不均衡学習は、トレーニングデータにおいて、クラスラベルの分布が高度に歪められたときに起こる。
我々は、クラス不均衡を低減するために、元のデータセットをプライベートに増強する事前処理方式のDP変種について検討する。
また,不均衡を考慮した学習アルゴリズムを調整したインプロセッシング手法のDP変種についても検討する。
各手法について,既存の不均衡学習手法をプライベート設定に適応させるか,差分プライバシーに適合しないことを示す。
- 参考スコア(独自算出の注目度): 11.378192651089359
- License:
- Abstract: Imbalanced learning occurs in classification settings where the distribution of class-labels is highly skewed in the training data, such as when predicting rare diseases or in fraud detection. This class imbalance presents a significant algorithmic challenge, which can be further exacerbated when privacy-preserving techniques such as differential privacy are applied to protect sensitive training data. Our work formalizes these challenges and provides a number of algorithmic solutions. We consider DP variants of pre-processing methods that privately augment the original dataset to reduce the class imbalance; these include oversampling, SMOTE, and private synthetic data generation. We also consider DP variants of in-processing techniques, which adjust the learning algorithm to account for the imbalance; these include model bagging, class-weighted empirical risk minimization and class-weighted deep learning. For each method, we either adapt an existing imbalanced learning technique to the private setting or demonstrate its incompatibility with differential privacy. Finally, we empirically evaluate these privacy-preserving imbalanced learning methods under various data and distributional settings. We find that private synthetic data methods perform well as a data pre-processing step, while class-weighted ERMs are an alternative in higher-dimensional settings where private synthetic data suffers from the curse of dimensionality.
- Abstract(参考訳): 不均衡学習は、希少な疾患の予測や不正検出などのトレーニングデータにおいて、クラスラベルの分布が高度に歪められた分類設定で発生する。
このクラス不均衡は、機密性のあるトレーニングデータを保護するために、差分プライバシーなどのプライバシー保護技術を適用した場合には、さらに悪化する可能性がある。
私たちの研究はこれらの課題を形式化し、多くのアルゴリズムによる解決策を提供します。
我々は,クラス不均衡を低減するために,元のデータセットをプライベートに拡張する事前処理手法のDP変種について検討する。
また,学習アルゴリズムを不均衡を考慮に入れた内部処理手法のDP変種についても検討し,モデルバッグング,クラス重み付き経験的リスク最小化,クラス重み付きディープラーニングなどを検討した。
各手法について,既存の不均衡学習手法をプライベート設定に適応させるか,差分プライバシーに適合しないことを示す。
最後に、これらのプライバシー保護不均衡学習手法を、様々なデータおよび分散環境下で実証的に評価する。
プライベートな合成データ手法は、データ前処理のステップと同等に機能し、一方、クラス重み付きEMMは、プライベートな合成データが次元性の呪いに苦しむ高次元環境における代替手段である。
関連論文リスト
- Differentially Private Linear Regression with Linked Data [3.9325957466009203]
コンピュータ科学の数学的概念である差分プライバシーは、堅牢なプライバシー保証を提供する上昇するツールである。
最近の研究は、個々の統計および機械学習タスクの微分プライベートバージョンの開発に焦点を当てている。
相関データを用いた線形回帰のための2つの微分プライベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-01T21:00:19Z) - Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning [69.81438976273866]
オープンセット半教師付き学習(Open-set SSL)は、ラベル付きデータ(inliers)で観測されない新しいカテゴリ(outliers)を含むラベル付きデータとテストデータを含む、より実践的なシナリオである。
本研究では,様々な不確かさを定量化するための外乱検出器として顕在的深層学習(EDL)を導入し,自己学習と推論のための異なる不確実性指標を設計する。
Inlierとoutlierの両方を含むラベルなしデータセットに適合するように、新しい適応的負の最適化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-21T09:07:15Z) - Continual Learning For On-Device Environmental Sound Classification [63.81276321857279]
デバイス上での環境音の分類のための簡易かつ効率的な連続学習法を提案する。
本手法は,サンプルごとの分類の不確実性を測定することにより,トレーニングの履歴データを選択する。
論文 参考訳(メタデータ) (2022-07-15T12:13:04Z) - A Hybrid Approach for Binary Classification of Imbalanced Data [0.0]
本稿では,データブロック構築,次元減少,アンサンブル学習を併用したハイブリットアプローチHADRを提案する。
我々は、8つの不均衡な公開データセットの性能をリコール、G平均、AUCで評価した。
論文 参考訳(メタデータ) (2022-07-06T15:18:41Z) - Class Impression for Data-free Incremental Learning [20.23329169244367]
ディープラーニングベースの分類アプローチでは、事前にすべてのクラスからすべてのサンプルを収集し、オフラインでトレーニングする必要がある。
このパラダイムは、新しいデータの追加によって新しいクラスが徐々に導入される現実世界の臨床応用では実用的ではないかもしれない。
本稿では,従来のクラスでトレーニングされたモデルからデータを初めて合成し,本クラスを生成する,新しいデータ自由クラスインクリメンタルラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-26T06:20:17Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Imbalanced data preprocessing techniques utilizing local data
characteristics [2.28438857884398]
データ不均衡は、異なるクラスから来るトレーニング観察の数の間の不均衡である。
この論文の焦点は、新しいデータ再サンプリング戦略の開発である。
論文 参考訳(メタデータ) (2021-11-28T11:48:26Z) - On Deep Learning with Label Differential Privacy [54.45348348861426]
ラベルは機密性があり、保護されるべきであるとするマルチクラス分類について検討する。
本稿では,ラベル差分プライバシを用いたディープニューラルネットワークのトレーニングアルゴリズムを提案し,いくつかのデータセットで評価を行う。
論文 参考訳(メタデータ) (2021-02-11T15:09:06Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。