論文の概要: Robin Hood and Matthew Effects -- Differential Privacy Has Disparate
Impact on Synthetic Data
- arxiv url: http://arxiv.org/abs/2109.11429v1
- Date: Thu, 23 Sep 2021 15:14:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 15:11:40.263601
- Title: Robin Hood and Matthew Effects -- Differential Privacy Has Disparate
Impact on Synthetic Data
- Title(参考訳): Robin HoodとMatthew Effects -- 差分プライバシーは合成データに異なる影響を与える
- Authors: Georgi Ganev, Bristena Oprisanu, and Emiliano De Cristofaro
- Abstract要約: 我々は、差分プライバシーが生成モデルに与える影響を分析する。
生成した合成データにおいて,DPが逆サイズ分布となることを示す。
我々は、合成データに基づいてモデルを分析または訓練する際の注意を呼びかける。
- 参考スコア(独自算出の注目度): 3.2345600015792564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models trained using Differential Privacy (DP) are increasingly
used to produce and share synthetic data in a privacy-friendly manner. In this
paper, we set out to analyze the impact of DP on these models vis-a-vis
underrepresented classes and subgroups of data. We do so from two angles: 1)
the size of classes and subgroups in the synthetic data, and 2) classification
accuracy on them. We also evaluate the effect of various levels of imbalance
and privacy budgets.
Our experiments, conducted using three state-of-the-art DP models (PrivBayes,
DP-WGAN, and PATE-GAN), show that DP results in opposite size distributions in
the generated synthetic data. More precisely, it affects the gap between the
majority and minority classes and subgroups, either reducing it (a "Robin Hood"
effect) or increasing it ("Matthew" effect). However, both of these size shifts
lead to similar disparate impacts on a classifier's accuracy, affecting
disproportionately more the underrepresented subparts of the data. As a result,
we call for caution when analyzing or training a model on synthetic data, or
risk treating different subpopulations unevenly, which might also lead to
unreliable conclusions.
- Abstract(参考訳): 微分プライバシ(DP)を使用してトレーニングされた生成モデルは、プライバシフレンドリーな方法で合成データの生成と共有にますます利用されている。
本稿では,これらのモデルに対するDPの影響を分析することを目的とした。
2つの角度からそうします
1) 合成データにおけるクラスおよびサブグループの大きさ、及び
2) 分類の正確性。
また、様々なレベルの不均衡とプライバシー予算の効果も評価する。
3つの最先端dpモデル (privbayes, dp-wgan, pate-gan) を用いて実験を行った結果, dpは生成した合成データで反対のサイズ分布となることがわかった。
より正確には、多数派と少数派のクラスとサブグループの間のギャップに影響し、それを減少させる(ロビンフッド効果)か、または増加させる("matthew"効果)。
しかし、これら2つのサイズシフトは、分類器の精度に類似した影響をもたらし、不釣り合いにデータの下位部分に影響を与える。
その結果、合成データ上でモデルの解析や訓練を行う場合や、異なるサブポピュレーションを不均一に扱う場合など、信頼性の低い結論につながる可能性がある。
関連論文リスト
- Does Differential Privacy Impact Bias in Pretrained NLP Models? [24.63118058112066]
差分プライバシー(DP)は、訓練例の漏洩を制限するために、訓練済みの大規模言語モデル(LLM)を微調整する際に適用される。
実験分析により, LLMの偏りに対するDPの影響について検討した。
また,DPがバイアスに与える影響は,プライバシ保護レベルだけでなく,データセットの基本的な分布にも影響していることが示された。
論文 参考訳(メタデータ) (2024-10-24T13:59:03Z) - CLIP the Bias: How Useful is Balancing Data in Multimodal Learning? [72.19502317793133]
比較言語画像事前学習(CLIP)におけるバイアス軽減のためのデータバランスの有効性について検討する。
表現バイアスと相関バイアスの両方を低減するために,Multi-Modal Moment Matching (M4) と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T14:43:17Z) - On the Connection between Pre-training Data Diversity and Fine-tuning
Robustness [66.30369048726145]
下流の有効ロバスト性に影響を与える主な要因はデータ量である。
各種自然および合成データソースから抽出した事前学習分布について,本研究の成果を示す。
論文 参考訳(メタデータ) (2023-07-24T05:36:19Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - DP-SGD vs PATE: Which Has Less Disparate Impact on GANs? [0.0]
我々は、ディープラーニング、DP-SGD、PATEの2つのよく知られたDPフレームワークで訓練されたGANを、異なるデータ不均衡設定で比較する。
我々の実験は、PATEがDP-SGDと異なり、プライバシーとユーティリティのトレードオフは単調に減少していないことを一貫して示している。
論文 参考訳(メタデータ) (2021-11-26T17:25:46Z) - DP-SGD vs PATE: Which Has Less Disparate Impact on Model Accuracy? [1.3238373064156095]
差分プライバシーの適用、特にDP-SGDアルゴリズムは、人口の異なるサブグループに異なる影響を与えることを示す。
差分プライバシーを用いたディープラーニングモデルの学習機構であるPATEと、公平性の観点からDP-SGDを比較した。
論文 参考訳(メタデータ) (2021-06-22T20:37:12Z) - An Analysis of the Deployment of Models Trained on Private Tabular
Synthetic Data: Unexpected Surprises [4.129847064263057]
異なるプライベート(DP)合成データセットは、機械学習モデルをトレーニングするための強力なアプローチである。
差分プライベートな合成データ生成が分類に与える影響について検討する。
論文 参考訳(メタデータ) (2021-06-15T21:00:57Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z) - Generation of Differentially Private Heterogeneous Electronic Health
Records [9.926231893220061]
本稿では, 合成異種EHRの生成にジェネレーティブ・アドバーサリアル・ネットワークを用いて検討する。
本稿では,DP 合成 EHR データセットを作成するために,差分プライバシ(DP)保存最適化の適用について検討する。
論文 参考訳(メタデータ) (2020-06-05T13:21:46Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。