論文の概要: When Fairness Meets Privacy: Exploring Privacy Threats in Fair Binary
Classifiers through Membership Inference Attacks
- arxiv url: http://arxiv.org/abs/2311.03865v2
- Date: Fri, 12 Jan 2024 07:41:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 21:34:42.275215
- Title: When Fairness Meets Privacy: Exploring Privacy Threats in Fair Binary
Classifiers through Membership Inference Attacks
- Title(参考訳): プライバシにフェアネス:メンバーシップ推論攻撃を通じて、公正なバイナリ分類器でプライバシーの脅威を探る
- Authors: Huan Tian, Guangsheng Zhang, Bo Liu, Tianqing Zhu, Ming Ding, Wanlei
Zhou
- Abstract要約: 本研究では,公平度差分結果に基づく公平度向上モデルに対する効率的なMIA手法を提案する。
また、プライバシー漏洩を緩和するための潜在的戦略についても検討する。
- 参考スコア(独自算出の注目度): 18.27174440444256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous studies have developed fairness methods for biased models that
exhibit discriminatory behaviors towards specific subgroups. While these models
have shown promise in achieving fair predictions, recent research has
identified their potential vulnerability to score-based membership inference
attacks (MIAs). In these attacks, adversaries can infer whether a particular
data sample was used during training by analyzing the model's prediction
scores. However, our investigations reveal that these score-based MIAs are
ineffective when targeting fairness-enhanced models in binary classifications.
The attack models trained to launch the MIAs degrade into simplistic threshold
models, resulting in lower attack performance. Meanwhile, we observe that
fairness methods often lead to prediction performance degradation for the
majority subgroups of the training data. This raises the barrier to successful
attacks and widens the prediction gaps between member and non-member data.
Building upon these insights, we propose an efficient MIA method against
fairness-enhanced models based on fairness discrepancy results (FD-MIA). It
leverages the difference in the predictions from both the original and
fairness-enhanced models and exploits the observed prediction gaps as attack
clues. We also explore potential strategies for mitigating privacy leakages.
Extensive experiments validate our findings and demonstrate the efficacy of the
proposed method.
- Abstract(参考訳): これまでの研究は、特定の部分群に対する差別的行動を示すバイアスモデルに対する公平性法を開発した。
これらのモデルは、公正な予測を達成する上で有望であるが、最近の研究では、スコアベースのメンバーシップ推論攻撃(MIA)に対する潜在的な脆弱性を特定している。
これらの攻撃では、モデルの予測スコアを分析して、特定のデータサンプルがトレーニング中に使用されたかどうかを推測することができる。
しかし,これらのスコアベースMIAは,二項分類における公平性向上モデルを対象としている場合,有効ではないことが明らかとなった。
miasを発射する訓練を受けた攻撃モデルは、単純なしきい値モデルに分解され、攻撃性能が低下する。
一方,公平性はトレーニングデータの多数部分群に対する予測性能の低下につながることがしばしば観測された。
これにより、攻撃の成功への障壁が高まり、メンバーデータと非メンバーデータの間の予測ギャップが拡大する。
これらの知見に基づいて、フェアネス差分結果(FD-MIA)に基づくフェアネス強化モデルに対する効率的なMIA手法を提案する。
オリジナルモデルとフェアネスエンハンスモデルの両方からの予測の違いを活用し、観測された予測ギャップを攻撃の手がかりとして活用する。
また、プライバシー漏洩を緩和するための潜在的戦略についても検討する。
広範な実験を行い,提案手法の有効性を実証した。
関連論文リスト
- SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Towards Poisoning Fair Representations [26.47681999979761]
本研究は、公正表現学習手法を攻撃した最初のデータ中毒フレームワークを提案する。
トレーニングデータに慎重に毒を盛ったサンプルを注入することにより、できるだけ多くの人口統計情報を含む不公平な表現を出力するモデルを誘導する。
ベンチマークフェアネスデータセットと最先端の公正表現学習モデルの実験は、我々の攻撃の優位性を実証している。
論文 参考訳(メタデータ) (2023-09-28T14:51:20Z) - A Probabilistic Fluctuation based Membership Inference Attack for Diffusion Models [32.15773300068426]
メンバーシップ推論攻撃(MIA)は、機械学習モデルのトレーニングセットに、モデルをクエリすることでレコードが存在するかどうかを特定する。
PFAMI(Probabilistic Fluctuation Assessing Membership Inference Attack)を提案する。
PFAMIは最高のベースラインと比較して攻撃成功率(ASR)を約27.9%向上させることができる。
論文 参考訳(メタデータ) (2023-08-23T14:00:58Z) - Learning for Counterfactual Fairness from Observational Data [62.43249746968616]
公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。
カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。
本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。
論文 参考訳(メタデータ) (2023-07-17T04:08:29Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Membership Inference Attacks against Language Models via Neighbourhood
Comparison [45.086816556309266]
メンバーシップ推論攻撃(MIA)は、機械学習モデルのトレーニングデータにデータサンプルが存在するかどうかを予測することを目的としている。
近年の研究では、類似データに基づいてトレーニングされた参照モデルとモデルスコアを比較した参照ベースの攻撃は、MIAの性能を大幅に向上することを示した。
より現実的なシナリオでそれらの性能を調査し、参照モデルのトレーニングに使用されるデータ分布に関して非常に脆弱であることを示す。
論文 参考訳(メタデータ) (2023-05-29T07:06:03Z) - Is Your Model "MADD"? A Novel Metric to Evaluate Algorithmic Fairness
for Predictive Student Models [0.0]
本稿では,モデルの識別行動を分析するために,モデル絶対密度距離(MADD)を提案する。
オンライン授業における学生の成功を予測するための共通課題に対するアプローチを,いくつかの共通予測分類モデルを用いて評価した。
論文 参考訳(メタデータ) (2023-05-24T16:55:49Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Test-time Collective Prediction [73.74982509510961]
マシンラーニングの複数のパーティは、将来のテストポイントを共同で予測したいと考えています。
エージェントは、すべてのエージェントの集合の集合的な専門知識の恩恵を受けることを望んでいるが、データやモデルパラメータを解放する意思はないかもしれない。
我々は、各エージェントの事前学習モデルを利用して、テスト時に集合的な予測を行う分散型メカニズムを探索する。
論文 参考訳(メタデータ) (2021-06-22T18:29:58Z) - Unfairness Discovery and Prevention For Few-Shot Regression [9.95899391250129]
歴史データの識別(あるいは偏見)に敏感な教師付き数発メタラーニングモデルの公平性について検討する。
偏りのあるデータに基づいてトレーニングされた機械学習モデルは、少数グループのユーザに対して不公平な予測を行う傾向がある。
論文 参考訳(メタデータ) (2020-09-23T22:34:06Z) - Sampling Attacks: Amplification of Membership Inference Attacks by
Repeated Queries [74.59376038272661]
本手法は,他の標準メンバーシップ相手と異なり,被害者モデルのスコアにアクセスできないような厳格な制限の下で動作可能な,新しいメンバーシップ推論手法であるサンプリングアタックを導入する。
ラベルのみを公開している被害者モデルでは,攻撃のサンプリングが引き続き可能であり,攻撃者はその性能の最大100%を回復できることを示す。
防衛においては,被害者モデルのトレーニング中の勾配摂動と予測時の出力摂動の形式で差分プライバシーを選択する。
論文 参考訳(メタデータ) (2020-09-01T12:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。