論文の概要: TrojFair: Trojan Fairness Attacks
- arxiv url: http://arxiv.org/abs/2312.10508v1
- Date: Sat, 16 Dec 2023 17:36:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 16:04:11.871004
- Title: TrojFair: Trojan Fairness Attacks
- Title(参考訳): TrojFair:トロイの木馬のフェアネス攻撃
- Authors: Mengxin Zheng, Jiaqi Xue, Yi Sheng, Lei Yang, Qian Lou, and Lei Jiang
- Abstract要約: TrojFairは、既存のモデルフェアネスオーディション検出器に耐性があるステルスフェアネス攻撃である。
目標グループの攻撃成功率は8.77%ドルを超え、平均的精度損失は0.44%ドル以下である。
また、ターゲットグループとターゲットでないグループの間で、さまざまなデータセットやモデル間で高い差別的なスコアを維持している。
- 参考スコア(独自算出の注目度): 14.677100524907358
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep learning models have been incorporated into high-stakes sectors,
including healthcare diagnosis, loan approvals, and candidate recruitment,
among others. Consequently, any bias or unfairness in these models can harm
those who depend on such models. In response, many algorithms have emerged to
ensure fairness in deep learning. However, while the potential for harm is
substantial, the resilience of these fair deep learning models against
malicious attacks has never been thoroughly explored, especially in the context
of emerging Trojan attacks. Moving beyond prior research, we aim to fill this
void by introducing \textit{TrojFair}, a Trojan fairness attack. Unlike
existing attacks, TrojFair is model-agnostic and crafts a Trojaned model that
functions accurately and equitably for clean inputs. However, it displays
discriminatory behaviors \text{-} producing both incorrect and unfair results
\text{-} for specific groups with tainted inputs containing a trigger. TrojFair
is a stealthy Fairness attack that is resilient to existing model fairness
audition detectors since the model for clean inputs is fair. TrojFair achieves
a target group attack success rate exceeding $88.77\%$, with an average
accuracy loss less than $0.44\%$. It also maintains a high discriminative score
between the target and non-target groups across various datasets and models.
- Abstract(参考訳): ディープラーニングモデルは、医療診断、ローン承認、候補者採用など、高度な分野に取り入れられている。
したがって、これらのモデルのバイアスや不公平は、そのようなモデルに依存する人々を傷つける可能性がある。
これに対し、ディープラーニングの公平性を確保するために多くのアルゴリズムが登場した。
しかし、被害の可能性はかなりあるが、これらの公正な深層学習モデルの悪意ある攻撃に対する弾力性は、特にトロイア攻撃の出現の文脈において、徹底的に研究されることはなかった。
以前の研究を超えて、私たちはトロイの木馬のフェアネス攻撃である \textit{trojfair} を導入することでこの空白を埋めようとしている。
既存の攻撃とは異なり、TrojFairはモデルに依存しず、クリーンな入力に対して正確かつ公平に機能するTrojanedモデルを構築する。
しかし、トリガーを含む汚染された入力を持つ特定のグループに対して、不正確な結果と不公平な結果の両方を生成する識別行動を示す。
TrojFairはステルスフェアネス攻撃であり、クリーン入力のモデルがフェアであるため、既存のモデルフェアネスオーディション検出器に耐性がある。
TrojFair は、目標グループの攻撃成功率は 8.77 %$ を超え、平均精度損失は 0.44 %$ 以下である。
また、さまざまなデータセットやモデルにわたって、ターゲットグループと非ターゲットグループの間で高い識別スコアを維持している。
関連論文リスト
- BadFair: Backdoored Fairness Attacks with Group-conditioned Triggers [11.406478357477292]
BadFairは、バックドア型フェアネスアタック手法である。
BadFairは、通常の条件下で正確さと公正さで動作するモデルをステルス的に作り出すが、特定のトリガーによって起動されると、特定のグループに対して誤った結果を生成して生成する。
以上の結果から,BadFairは標的グループを標的とした攻撃で85%以上の攻撃成功率を達成したが,精度の低下は最小限であった。
論文 参考訳(メタデータ) (2024-10-23T01:14:54Z) - PFAttack: Stealthy Attack Bypassing Group Fairness in Federated Learning [24.746843739848003]
フェデレーテッド・ラーニング(FL)は、異なる集団に対して偏見のない決定を下すグローバルモデルを、クライアントが共同でトレーニングすることを可能にする。
これまでの研究では、FLシステムは毒殺攻撃のモデルに弱いことが示されている。
本研究では,グローバルモデル精度を低下させるのではなく,公平性メカニズムを回避することを目的としたPFATTACK(Profit-driven Fairness Attack)を提案する。
論文 参考訳(メタデータ) (2024-10-09T03:23:07Z) - Fairness Without Harm: An Influence-Guided Active Sampling Approach [32.173195437797766]
我々は、モデルの精度に害を与えることなく、グループフェアネスの格差を軽減するモデルを訓練することを目指している。
公正なアクティブな学習アプローチのような現在のデータ取得方法は、通常、アノテートセンシティブな属性を必要とする。
トレーニンググループアノテーションに依存しない抽出可能なアクティブデータサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-20T07:57:38Z) - Attacks on fairness in Federated Learning [1.03590082373586]
我々は、訓練されたモデルの公平性を損なう新しいタイプの攻撃を提案する。
バックドア攻撃と同様の脅威モデルを用いることで、攻撃者は集約されたモデルに不公平な性能分布を持たせることができる。
論文 参考訳(メタデータ) (2023-11-21T16:42:03Z) - Beyond Labeling Oracles: What does it mean to steal ML models? [52.63413852460003]
モデル抽出攻撃は、クエリアクセスのみで訓練されたモデルを盗むように設計されている。
モデル抽出攻撃の成功に影響を及ぼす要因について検討する。
我々は,ME攻撃の敵の目標を再定義するようコミュニティに促した。
論文 参考訳(メタデータ) (2023-10-03T11:10:21Z) - Towards Poisoning Fair Representations [26.47681999979761]
本研究は、公正表現学習手法を攻撃した最初のデータ中毒フレームワークを提案する。
トレーニングデータに慎重に毒を盛ったサンプルを注入することにより、できるだけ多くの人口統計情報を含む不公平な表現を出力するモデルを誘導する。
ベンチマークフェアネスデータセットと最先端の公正表現学習モデルの実験は、我々の攻撃の優位性を実証している。
論文 参考訳(メタデータ) (2023-09-28T14:51:20Z) - DualFair: Fair Representation Learning at Both Group and Individual
Levels via Contrastive Self-supervision [73.80009454050858]
この研究は、DualFairと呼ばれる自己教師型モデルを提示し、学習された表現から性別や人種などのセンシティブな属性をデバイアスすることができる。
我々のモデルは、グループフェアネスと対実フェアネスという2つのフェアネス基準を共同で最適化する。
論文 参考訳(メタデータ) (2023-03-15T07:13:54Z) - Fairness Increases Adversarial Vulnerability [50.90773979394264]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。
非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。
フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-11-21T19:55:35Z) - Towards Fair Classification against Poisoning Attacks [52.57443558122475]
攻撃者が少数のサンプルを訓練データに挿入できる毒殺シナリオについて検討する。
本稿では,従来の防犯手法に適合する汎用的かつ理論的に保証された枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-18T00:49:58Z) - Revealing Unfair Models by Mining Interpretable Evidence [50.48264727620845]
機械学習の人気は、不公平なモデルがハイリスクなアプリケーションにデプロイされるリスクを高めている。
本稿では,解釈可能な証拠をマイニングすることで不公平なモデルを明らかにする新しい課題に取り組む。
本手法は,訓練されたモデルの不公平性を効果的に明らかにするために,極めて解釈可能な確固たる証拠を見出す。
論文 参考訳(メタデータ) (2022-07-12T20:03:08Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。