論文の概要: Towards Poisoning Fair Representations
- arxiv url: http://arxiv.org/abs/2309.16487v2
- Date: Mon, 4 Mar 2024 19:03:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 02:29:42.623001
- Title: Towards Poisoning Fair Representations
- Title(参考訳): 公正な表現に毒を盛る
- Authors: Tianci Liu, Haoyu Wang, Feijie Wu, Hengtong Zhang, Pan Li, Lu Su, Jing
Gao
- Abstract要約: 本研究は、公正表現学習手法を攻撃した最初のデータ中毒フレームワークを提案する。
トレーニングデータに慎重に毒を盛ったサンプルを注入することにより、できるだけ多くの人口統計情報を含む不公平な表現を出力するモデルを誘導する。
ベンチマークフェアネスデータセットと最先端の公正表現学習モデルの実験は、我々の攻撃の優位性を実証している。
- 参考スコア(独自算出の注目度): 26.47681999979761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fair machine learning seeks to mitigate model prediction bias against certain
demographic subgroups such as elder and female. Recently, fair representation
learning (FRL) trained by deep neural networks has demonstrated superior
performance, whereby representations containing no demographic information are
inferred from the data and then used as the input to classification or other
downstream tasks. Despite the development of FRL methods, their vulnerability
under data poisoning attack, a popular protocol to benchmark model robustness
under adversarial scenarios, is under-explored. Data poisoning attacks have
been developed for classical fair machine learning methods which incorporate
fairness constraints into shallow-model classifiers. Nonetheless, these attacks
fall short in FRL due to notably different fairness goals and model
architectures. This work proposes the first data poisoning framework attacking
FRL. We induce the model to output unfair representations that contain as much
demographic information as possible by injecting carefully crafted poisoning
samples into the training data. This attack entails a prohibitive bilevel
optimization, wherefore an effective approximated solution is proposed. A
theoretical analysis on the needed number of poisoning samples is derived and
sheds light on defending against the attack. Experiments on benchmark fairness
datasets and state-of-the-art fair representation learning models demonstrate
the superiority of our attack.
- Abstract(参考訳): 公正な機械学習は、年齢層や女性のような特定のサブグループに対するモデル予測バイアスを緩和しようと試みている。
近年,深層ニューラルネットワークによって訓練された公正表現学習 (frl) は,データから人口統計情報を含まない表現を推定し,分類や他の下流タスクへの入力として用いるという優れた性能を示している。
FRL法の開発にもかかわらず、敵シナリオ下でモデル堅牢性をベンチマークする一般的なプロトコルであるデータ中毒攻撃下での脆弱性は未調査である。
データ中毒攻撃は、浅層モデル分類器に公正性制約を組み込んだ古典的公正機械学習手法のために開発された。
しかしながら、これらの攻撃はFRLでは特にフェアネスの目標とモデルアーキテクチャが異なるため不足している。
本研究は、FRLを攻撃した最初のデータ中毒フレームワークを提案する。
訓練データに慎重に作製した毒素サンプルを注入することにより,人口統計情報を含む不公平な表現を可能な限り出力するように誘導する。
この攻撃は、効果的な近似解が提案される、禁止された二段階最適化を伴う。
必要な数の毒サンプルに関する理論的分析が導出され、攻撃に対する防御に光を放つ。
ベンチマークフェアネスデータセットと最先端フェア表現学習モデルに関する実験は,攻撃の優位性を示している。
関連論文リスト
- EAB-FL: Exacerbating Algorithmic Bias through Model Poisoning Attacks in Federated Learning [3.699715556687871]
フェデレートラーニング(FL)は、複数のパーティがプライベートデータを開示することなく、共同で共有モデルをトレーニングできる技術である。
FLモデルは、データの異質性や党の選択により、特定の人口集団に対する偏見に悩まされることがある。
そこで本研究では, モデル有効性を維持しつつ, グループ不公平性を高めることを目的とした, 新たなモデル中毒攻撃であるERB-FLを提案する。
論文 参考訳(メタデータ) (2024-10-02T21:22:48Z) - Defending Against Sophisticated Poisoning Attacks with RL-based Aggregation in Federated Learning [12.352511156767338]
フェデレート学習は、毒殺攻撃のモデル化に非常に影響を受けやすい。
本稿では,RLに基づくアダプティブアグリゲーション手法であるAdaAggRLを提案する。
4つの実世界のデータセットの実験により、提案された防衛モデルは高度な攻撃に対して広く採用されている防衛モデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-06-20T11:33:14Z) - Data-Agnostic Model Poisoning against Federated Learning: A Graph
Autoencoder Approach [65.2993866461477]
本稿では,フェデレートラーニング(FL)に対するデータに依存しないモデル中毒攻撃を提案する。
この攻撃はFLトレーニングデータの知識を必要とせず、有効性と検出不能の両方を達成する。
実験により、FLの精度は提案した攻撃の下で徐々に低下し、既存の防御機構では検出できないことが示された。
論文 参考訳(メタデータ) (2023-11-30T12:19:10Z) - When Fairness Meets Privacy: Exploring Privacy Threats in Fair Binary Classifiers via Membership Inference Attacks [17.243744418309593]
本研究では,公平度差分結果に基づく公平度向上モデルに対する効率的なMIA手法を提案する。
また、プライバシー漏洩を緩和するための潜在的戦略についても検討する。
論文 参考訳(メタデータ) (2023-11-07T10:28:17Z) - Learning for Counterfactual Fairness from Observational Data [62.43249746968616]
公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。
カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。
本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。
論文 参考訳(メタデータ) (2023-07-17T04:08:29Z) - Membership Inference Attacks against Language Models via Neighbourhood
Comparison [45.086816556309266]
メンバーシップ推論攻撃(MIA)は、機械学習モデルのトレーニングデータにデータサンプルが存在するかどうかを予測することを目的としている。
近年の研究では、類似データに基づいてトレーニングされた参照モデルとモデルスコアを比較した参照ベースの攻撃は、MIAの性能を大幅に向上することを示した。
より現実的なシナリオでそれらの性能を調査し、参照モデルのトレーニングに使用されるデータ分布に関して非常に脆弱であることを示す。
論文 参考訳(メタデータ) (2023-05-29T07:06:03Z) - Revealing Unfair Models by Mining Interpretable Evidence [50.48264727620845]
機械学習の人気は、不公平なモデルがハイリスクなアプリケーションにデプロイされるリスクを高めている。
本稿では,解釈可能な証拠をマイニングすることで不公平なモデルを明らかにする新しい課題に取り組む。
本手法は,訓練されたモデルの不公平性を効果的に明らかにするために,極めて解釈可能な確固たる証拠を見出す。
論文 参考訳(メタデータ) (2022-07-12T20:03:08Z) - FairIF: Boosting Fairness in Deep Learning via Influence Functions with
Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。
サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。
FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-15T05:14:48Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - FR-Train: A Mutual Information-Based Approach to Fair and Robust
Training [33.385118640843416]
本稿では,公正でロバストなモデルトレーニングを行うFR-Trainを提案する。
我々の実験では、FR-Trainは、データ中毒の存在下での公正さと正確さのほとんど低下を示さなかった。
論文 参考訳(メタデータ) (2020-02-24T13:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。