論文の概要: Exacerbating Algorithmic Bias through Fairness Attacks
- arxiv url: http://arxiv.org/abs/2012.08723v1
- Date: Wed, 16 Dec 2020 03:44:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 03:06:15.409542
- Title: Exacerbating Algorithmic Bias through Fairness Attacks
- Title(参考訳): 公正攻撃によるアルゴリズムバイアスの悪化
- Authors: Ninareh Mehrabi, Muhammad Naveed, Fred Morstatter, Aram Galstyan
- Abstract要約: 敵が意図的にシステムの公平性を標的とする新たなタイプのデータ中毒攻撃を提案する。
アンカー攻撃では、特定のターゲットポイントに毒点を配置することで決定境界を歪め、結果にバイアスを与える。
影響攻撃においては,敏感な属性と決定結果の共分散を最大化し,モデルの公平性に影響を及ぼすことを目的とする。
- 参考スコア(独自算出の注目度): 16.367458747841255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Algorithmic fairness has attracted significant attention in recent years,
with many quantitative measures suggested for characterizing the fairness of
different machine learning algorithms. Despite this interest, the robustness of
those fairness measures with respect to an intentional adversarial attack has
not been properly addressed. Indeed, most adversarial machine learning has
focused on the impact of malicious attacks on the accuracy of the system,
without any regard to the system's fairness. We propose new types of data
poisoning attacks where an adversary intentionally targets the fairness of a
system. Specifically, we propose two families of attacks that target fairness
measures. In the anchoring attack, we skew the decision boundary by placing
poisoned points near specific target points to bias the outcome. In the
influence attack on fairness, we aim to maximize the covariance between the
sensitive attributes and the decision outcome and affect the fairness of the
model. We conduct extensive experiments that indicate the effectiveness of our
proposed attacks.
- Abstract(参考訳): 近年、アルゴリズム的公平性が注目され、さまざまな機械学習アルゴリズムの公平性を特徴付ける多くの定量的指標が提案されている。
この関心にもかかわらず、意図的敵意攻撃に対する公平度対策の堅牢性は適切に対処されていない。
実際、ほとんどの敵対的機械学習は、システムの公正性に関係なく、システムの正確性に対する悪意のある攻撃の影響に焦点を当てている。
本稿では,敵が意図的にシステムの公正性を狙う新たな種類のデータ中毒攻撃を提案する。
具体的には、フェアネス対策を狙う2つの攻撃群を提案する。
アンカー攻撃では、特定のターゲットポイントに毒点を配置することで決定境界を歪め、結果にバイアスを与える。
公平性に対する影響攻撃においては,敏感な属性と決定結果の共分散を最大化し,モデルの公平性に影響を与えることを目的とする。
提案攻撃の有効性を示す広範な実験を行った。
関連論文リスト
- Indiscriminate Disruption of Conditional Inference on Multivariate Gaussians [60.22542847840578]
敵対的機械学習の進歩にもかかわらず、敵対者の存在下でのガウスモデルに対する推論は特に過小評価されている。
我々は,意思決定者の条件推論とその後の行動の妨害を希望する自己関心のある攻撃者について,一組の明らかな変数を乱すことで検討する。
検出を避けるため、攻撃者は、破損した証拠の密度によって可否が決定される場合に、攻撃が可否を示すことを望んでいる。
論文 参考訳(メタデータ) (2024-11-21T17:46:55Z) - BadFair: Backdoored Fairness Attacks with Group-conditioned Triggers [11.406478357477292]
BadFairは、バックドア型フェアネスアタック手法である。
BadFairは、通常の条件下で正確さと公正さで動作するモデルをステルス的に作り出すが、特定のトリガーによって起動されると、特定のグループに対して誤った結果を生成して生成する。
以上の結果から,BadFairは標的グループを標的とした攻撃で85%以上の攻撃成功率を達成したが,精度の低下は最小限であった。
論文 参考訳(メタデータ) (2024-10-23T01:14:54Z) - Towards Fair Classification against Poisoning Attacks [52.57443558122475]
攻撃者が少数のサンプルを訓練データに挿入できる毒殺シナリオについて検討する。
本稿では,従来の防犯手法に適合する汎用的かつ理論的に保証された枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-18T00:49:58Z) - A Tale of HodgeRank and Spectral Method: Target Attack Against Rank
Aggregation Is the Fixed Point of Adversarial Game [153.74942025516853]
ランクアグリゲーション手法の本質的な脆弱性は文献ではよく研究されていない。
本稿では,ペアデータの変更による集計結果の指定を希望する目的のある敵に焦点をあてる。
提案した標的攻撃戦略の有効性は,一連の玩具シミュレーションと実世界のデータ実験によって実証された。
論文 参考訳(メタデータ) (2022-09-13T05:59:02Z) - Poisoning Attacks on Fair Machine Learning [13.874416271549523]
本稿では, モデル精度とアルゴリズムフェアネスの両方に対処するために, 有毒なサンプルを生成するフレームワークを提案する。
我々は,3つのオンラインアタック,対向サンプリング,対向ラベル付け,対向特徴修正を開発する。
本フレームワークでは,攻撃者が予測精度や公平性に着目して攻撃の焦点を柔軟に調整し,各候補点の影響を精度損失と公平性違反の両方に対して正確に定量化することができる。
論文 参考訳(メタデータ) (2021-10-17T21:56:14Z) - Identification of Attack-Specific Signatures in Adversarial Examples [62.17639067715379]
異なる攻撃アルゴリズムは, その効果だけでなく, 被害者の質的な影響も示している。
以上の結果から, 予測的対人攻撃は, 模擬モデルにおける成功率だけでなく, 被害者に対するより深い下流効果によって比較されるべきであることが示唆された。
論文 参考訳(メタデータ) (2021-10-13T15:40:48Z) - AdvMind: Inferring Adversary Intent of Black-Box Attacks [66.19339307119232]
本稿では,ブラックボックス攻撃の敵意を頑健に推定する新たな評価モデルであるAdvMindを提案する。
平均的なAdvMindは、3回未満のクエリバッチを観察した後、75%以上の精度で敵の意図を検出する。
論文 参考訳(メタデータ) (2020-06-16T22:04:31Z) - Towards Robust Fine-grained Recognition by Maximal Separation of
Discriminative Features [72.72840552588134]
本研究は, 粒度認識ネットワークにおけるクラス間の潜伏表現の近接性を, 敵攻撃の成功の鍵となる要因として同定する。
注意に基づく正規化機構を導入し、異なるクラスの識別潜在特徴を最大限に分離する。
論文 参考訳(メタデータ) (2020-06-10T18:34:45Z) - Poisoning Attacks on Algorithmic Fairness [14.213638219685656]
本稿では,アルゴリズムの公正性に対する攻撃を害する最適化フレームワークを提案する。
我々は,データ中の異なるグループ間の分類格差の導入を目的とした,勾配に基づく中毒攻撃を開発した。
我々の発見は、異なるシナリオにおけるアルゴリズムフェアネスをターゲットとした、全く新しい敵攻撃セットの定義への道を開いたと信じている。
論文 参考訳(メタデータ) (2020-04-15T08:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。