論文の概要: TrojFair: Trojan Fairness Attacks
- arxiv url: http://arxiv.org/abs/2312.10508v1
- Date: Sat, 16 Dec 2023 17:36:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 16:04:11.871004
- Title: TrojFair: Trojan Fairness Attacks
- Title(参考訳): TrojFair:トロイの木馬のフェアネス攻撃
- Authors: Mengxin Zheng, Jiaqi Xue, Yi Sheng, Lei Yang, Qian Lou, and Lei Jiang
- Abstract要約: TrojFairは、既存のモデルフェアネスオーディション検出器に耐性があるステルスフェアネス攻撃である。
目標グループの攻撃成功率は8.77%ドルを超え、平均的精度損失は0.44%ドル以下である。
また、ターゲットグループとターゲットでないグループの間で、さまざまなデータセットやモデル間で高い差別的なスコアを維持している。
- 参考スコア(独自算出の注目度): 14.677100524907358
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep learning models have been incorporated into high-stakes sectors,
including healthcare diagnosis, loan approvals, and candidate recruitment,
among others. Consequently, any bias or unfairness in these models can harm
those who depend on such models. In response, many algorithms have emerged to
ensure fairness in deep learning. However, while the potential for harm is
substantial, the resilience of these fair deep learning models against
malicious attacks has never been thoroughly explored, especially in the context
of emerging Trojan attacks. Moving beyond prior research, we aim to fill this
void by introducing \textit{TrojFair}, a Trojan fairness attack. Unlike
existing attacks, TrojFair is model-agnostic and crafts a Trojaned model that
functions accurately and equitably for clean inputs. However, it displays
discriminatory behaviors \text{-} producing both incorrect and unfair results
\text{-} for specific groups with tainted inputs containing a trigger. TrojFair
is a stealthy Fairness attack that is resilient to existing model fairness
audition detectors since the model for clean inputs is fair. TrojFair achieves
a target group attack success rate exceeding $88.77\%$, with an average
accuracy loss less than $0.44\%$. It also maintains a high discriminative score
between the target and non-target groups across various datasets and models.
- Abstract(参考訳): ディープラーニングモデルは、医療診断、ローン承認、候補者採用など、高度な分野に取り入れられている。
したがって、これらのモデルのバイアスや不公平は、そのようなモデルに依存する人々を傷つける可能性がある。
これに対し、ディープラーニングの公平性を確保するために多くのアルゴリズムが登場した。
しかし、被害の可能性はかなりあるが、これらの公正な深層学習モデルの悪意ある攻撃に対する弾力性は、特にトロイア攻撃の出現の文脈において、徹底的に研究されることはなかった。
以前の研究を超えて、私たちはトロイの木馬のフェアネス攻撃である \textit{trojfair} を導入することでこの空白を埋めようとしている。
既存の攻撃とは異なり、TrojFairはモデルに依存しず、クリーンな入力に対して正確かつ公平に機能するTrojanedモデルを構築する。
しかし、トリガーを含む汚染された入力を持つ特定のグループに対して、不正確な結果と不公平な結果の両方を生成する識別行動を示す。
TrojFairはステルスフェアネス攻撃であり、クリーン入力のモデルがフェアであるため、既存のモデルフェアネスオーディション検出器に耐性がある。
TrojFair は、目標グループの攻撃成功率は 8.77 %$ を超え、平均精度損失は 0.44 %$ 以下である。
また、さまざまなデータセットやモデルにわたって、ターゲットグループと非ターゲットグループの間で高い識別スコアを維持している。
関連論文リスト
- Minimax Optimal Fair Classification with Bounded Demographic Disparity [28.936244976415484]
本稿では,2つの保護群による公正二項分類の統計的基礎について考察する。
有限サンプルを用いると、グループ固有の受容閾値を推定する必要があるため、追加のコストが発生することを示す。
オフセットを持つグループワイドしきい値法であるFairBayes-DDP+を提案する。
論文 参考訳(メタデータ) (2024-03-27T02:59:04Z) - Attacks of fairness in Federated Learning [1.223779595809275]
我々は、訓練されたモデルの公平性を損なう新しいタイプの攻撃を提案する。
バックドア攻撃と同様の脅威モデルを用いることで、攻撃者は集約されたモデルに不公平な性能分布を持たせることができる。
論文 参考訳(メタデータ) (2023-11-21T16:42:03Z) - Beyond Labeling Oracles: What does it mean to steal ML models? [57.49901512739509]
モデル抽出攻撃は、クエリアクセスのみで訓練されたモデルを盗むように設計されている。
攻撃者はデータ取得とラベル付けの両方のコストを節約しないことが多い。
論文 参考訳(メタデータ) (2023-10-03T11:10:21Z) - Towards Poisoning Fair Representations [26.47681999979761]
本研究は、公正表現学習手法を攻撃した最初のデータ中毒フレームワークを提案する。
トレーニングデータに慎重に毒を盛ったサンプルを注入することにより、できるだけ多くの人口統計情報を含む不公平な表現を出力するモデルを誘導する。
ベンチマークフェアネスデータセットと最先端の公正表現学習モデルの実験は、我々の攻撃の優位性を実証している。
論文 参考訳(メタデータ) (2023-09-28T14:51:20Z) - DualFair: Fair Representation Learning at Both Group and Individual
Levels via Contrastive Self-supervision [73.80009454050858]
この研究は、DualFairと呼ばれる自己教師型モデルを提示し、学習された表現から性別や人種などのセンシティブな属性をデバイアスすることができる。
我々のモデルは、グループフェアネスと対実フェアネスという2つのフェアネス基準を共同で最適化する。
論文 参考訳(メタデータ) (2023-03-15T07:13:54Z) - FairAdaBN: Mitigating unfairness with adaptive batch normalization and
its application to dermatological disease classification [14.589159162086926]
バッチ正規化をセンシティブ属性に適応させるFairAdaBNを提案する。
本研究では,FATE(Fairness-Accuracy Trade-off efficiency)と呼ばれる新しい指標を提案する。
2つの皮膚科学データセットを用いた実験により,提案手法はフェアネス基準とFATEの他の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-15T02:22:07Z) - Fairness Increases Adversarial Vulnerability [50.90773979394264]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。
非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。
フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-11-21T19:55:35Z) - Towards Fair Classification against Poisoning Attacks [52.57443558122475]
攻撃者が少数のサンプルを訓練データに挿入できる毒殺シナリオについて検討する。
本稿では,従来の防犯手法に適合する汎用的かつ理論的に保証された枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-18T00:49:58Z) - Revealing Unfair Models by Mining Interpretable Evidence [50.48264727620845]
機械学習の人気は、不公平なモデルがハイリスクなアプリケーションにデプロイされるリスクを高めている。
本稿では,解釈可能な証拠をマイニングすることで不公平なモデルを明らかにする新しい課題に取り組む。
本手法は,訓練されたモデルの不公平性を効果的に明らかにするために,極めて解釈可能な確固たる証拠を見出す。
論文 参考訳(メタデータ) (2022-07-12T20:03:08Z) - Subverting Fair Image Search with Generative Adversarial Perturbations [14.669429931620689]
本稿では,最先端の公正な画像検索エンジンを攻撃するケーススタディを提案する。
これらの混乱は、公正に再ランク付けされたアルゴリズムが、敵対するサブ人口からの人々を含む画像のランクを不当に向上させようとする。
我々は、我々の攻撃が多数の変数に対して堅牢であること、検索結果の関連性にほとんど影響を与えないこと、そして厳密な脅威モデルの下で成功することを実証した。
論文 参考訳(メタデータ) (2022-05-05T03:05:34Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。