論文の概要: BadFair: Backdoored Fairness Attacks with Group-conditioned Triggers
- arxiv url: http://arxiv.org/abs/2410.17492v1
- Date: Wed, 23 Oct 2024 01:14:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:57:41.919267
- Title: BadFair: Backdoored Fairness Attacks with Group-conditioned Triggers
- Title(参考訳): BadFair:グループコンディショナーによるバックドアのフェアネスアタック
- Authors: Jiaqi Xue, Qian Lou, Mengxin Zheng,
- Abstract要約: BadFairは、バックドア型フェアネスアタック手法である。
BadFairは、通常の条件下で正確さと公正さで動作するモデルをステルス的に作り出すが、特定のトリガーによって起動されると、特定のグループに対して誤った結果を生成して生成する。
以上の結果から,BadFairは標的グループを標的とした攻撃で85%以上の攻撃成功率を達成したが,精度の低下は最小限であった。
- 参考スコア(独自算出の注目度): 11.406478357477292
- License:
- Abstract: Attacking fairness is crucial because compromised models can introduce biased outcomes, undermining trust and amplifying inequalities in sensitive applications like hiring, healthcare, and law enforcement. This highlights the urgent need to understand how fairness mechanisms can be exploited and to develop defenses that ensure both fairness and robustness. We introduce BadFair, a novel backdoored fairness attack methodology. BadFair stealthily crafts a model that operates with accuracy and fairness under regular conditions but, when activated by certain triggers, discriminates and produces incorrect results for specific groups. This type of attack is particularly stealthy and dangerous, as it circumvents existing fairness detection methods, maintaining an appearance of fairness in normal use. Our findings reveal that BadFair achieves a more than 85% attack success rate in attacks aimed at target groups on average while only incurring a minimal accuracy loss. Moreover, it consistently exhibits a significant discrimination score, distinguishing between pre-defined target and non-target attacked groups across various datasets and models.
- Abstract(参考訳): 妥協されたモデルはバイアスのある結果をもたらし、信頼を弱め、雇用や医療、法執行機関といったセンシティブなアプリケーションにおける不平等を増幅する。
これは、フェアネスメカニズムをどのように活用できるかを緊急に理解し、フェアネスとロバストネスの両方を確実にする防御を開発する必要性を強調している。
BadFairは、バックドア型フェアネスアタック手法である。
BadFairは、通常の条件下で正確さと公正さで動作するモデルをステルス的に作り出すが、特定のトリガーによって起動されると、特定のグループに対して誤った結果を生成して生成する。
この種の攻撃は、既存のフェアネス検出手法を回避し、通常の使用時のフェアネスの外観を維持するため、特にステルスで危険である。
以上の結果から,BadFairは標的グループを標的とした攻撃で85%以上の攻撃成功率を達成したが,精度の低下は最小限であった。
さらに、さまざまなデータセットやモデルに対して、事前に定義されたターゲットと非ターゲットアタックのグループを区別して、重要な識別スコアを一貫して示している。
関連論文リスト
- PFAttack: Stealthy Attack Bypassing Group Fairness in Federated Learning [24.746843739848003]
フェデレーテッド・ラーニング(FL)は、異なる集団に対して偏見のない決定を下すグローバルモデルを、クライアントが共同でトレーニングすることを可能にする。
これまでの研究では、FLシステムは毒殺攻撃のモデルに弱いことが示されている。
本研究では,グローバルモデル精度を低下させるのではなく,公平性メカニズムを回避することを目的としたPFATTACK(Profit-driven Fairness Attack)を提案する。
論文 参考訳(メタデータ) (2024-10-09T03:23:07Z) - TrojFair: Trojan Fairness Attacks [14.677100524907358]
TrojFairは、既存のモデルフェアネスオーディション検出器に耐性があるステルスフェアネス攻撃である。
目標グループの攻撃成功率は8.77%ドルを超え、平均的精度損失は0.44%ドル以下である。
また、ターゲットグループとターゲットでないグループの間で、さまざまなデータセットやモデル間で高い差別的なスコアを維持している。
論文 参考訳(メタデータ) (2023-12-16T17:36:23Z) - Causal Context Connects Counterfactual Fairness to Robust Prediction and
Group Fairness [15.83823345486604]
我々は、公正性と正確性の間に根本的なトレードオフがないことを示すことによって、事実的公正を動機付けます。
対実フェアネスは、比較的単純なグループフェアネスの測定によってテストされることがある。
論文 参考訳(メタデータ) (2023-10-30T16:07:57Z) - Learning for Counterfactual Fairness from Observational Data [62.43249746968616]
公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。
カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。
本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。
論文 参考訳(メタデータ) (2023-07-17T04:08:29Z) - RobustFair: Adversarial Evaluation through Fairness Confusion Directed
Gradient Search [8.278129731168127]
ディープニューラルネットワーク(DNN)は、様々な敵の摂動に対する脆弱性のため、しばしば課題に直面している。
本稿では, 偽りや偏りのある摂動を受ける場合のDNNの正確な公平性を評価するための新しいアプローチであるRobustFairを紹介する。
論文 参考訳(メタデータ) (2023-05-18T12:07:29Z) - Fair-CDA: Continuous and Directional Augmentation for Group Fairness [48.84385689186208]
公正な制約を課すための詳細なデータ拡張戦略を提案する。
グループ間の感性のある特徴の遷移経路のモデルを正規化することにより、グループフェアネスを実現することができることを示す。
提案手法はデータ生成モデルを仮定せず,精度と公平性の両方に優れた一般化を実現する。
論文 参考訳(メタデータ) (2023-04-01T11:23:00Z) - DualFair: Fair Representation Learning at Both Group and Individual
Levels via Contrastive Self-supervision [73.80009454050858]
この研究は、DualFairと呼ばれる自己教師型モデルを提示し、学習された表現から性別や人種などのセンシティブな属性をデバイアスすることができる。
我々のモデルは、グループフェアネスと対実フェアネスという2つのフェアネス基準を共同で最適化する。
論文 参考訳(メタデータ) (2023-03-15T07:13:54Z) - Towards Fair Classification against Poisoning Attacks [52.57443558122475]
攻撃者が少数のサンプルを訓練データに挿入できる毒殺シナリオについて検討する。
本稿では,従来の防犯手法に適合する汎用的かつ理論的に保証された枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-18T00:49:58Z) - Improving Robust Fairness via Balance Adversarial Training [51.67643171193376]
対人訓練 (AT) 法は, 対人攻撃に対して有効であるが, 異なるクラス間での精度と頑健さの相違が激しい。
本稿では,頑健な公正性問題に対処するために,BAT(Adversarial Training)を提案する。
論文 参考訳(メタデータ) (2022-09-15T14:44:48Z) - Optimising Equal Opportunity Fairness in Model Training [60.0947291284978]
既存のデバイアス法、例えば、敵の訓練や、表現から保護された情報を取り除くことは、バイアスを減らすことが示されている。
2つの新たな学習目標を提案し,2つの分類課題における高い性能を維持しつつ,バイアスの低減に有効であることを示す。
論文 参考訳(メタデータ) (2022-05-05T01:57:58Z) - Exacerbating Algorithmic Bias through Fairness Attacks [16.367458747841255]
敵が意図的にシステムの公平性を標的とする新たなタイプのデータ中毒攻撃を提案する。
アンカー攻撃では、特定のターゲットポイントに毒点を配置することで決定境界を歪め、結果にバイアスを与える。
影響攻撃においては,敏感な属性と決定結果の共分散を最大化し,モデルの公平性に影響を及ぼすことを目的とする。
論文 参考訳(メタデータ) (2020-12-16T03:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。