論文の概要: Towards Fair Classification against Poisoning Attacks
- arxiv url: http://arxiv.org/abs/2210.09503v1
- Date: Tue, 18 Oct 2022 00:49:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 15:59:32.701770
- Title: Towards Fair Classification against Poisoning Attacks
- Title(参考訳): 毒殺防止の公平な分類を目指して
- Authors: Han Xu, Xiaorui Liu, Yuxuan Wan, Jiliang Tang
- Abstract要約: 攻撃者が少数のサンプルを訓練データに挿入できる毒殺シナリオについて検討する。
本稿では,従来の防犯手法に適合する汎用的かつ理論的に保証された枠組みを提案する。
- 参考スコア(独自算出の注目度): 52.57443558122475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fair classification aims to stress the classification models to achieve the
equality (treatment or prediction quality) among different sensitive groups.
However, fair classification can be under the risk of poisoning attacks that
deliberately insert malicious training samples to manipulate the trained
classifiers' performance. In this work, we study the poisoning scenario where
the attacker can insert a small fraction of samples into training data, with
arbitrary sensitive attributes as well as other predictive features. We
demonstrate that the fairly trained classifiers can be greatly vulnerable to
such poisoning attacks, with much worse accuracy & fairness trade-off, even
when we apply some of the most effective defenses (originally proposed to
defend traditional classification tasks). As countermeasures to defend fair
classification tasks, we propose a general and theoretically guaranteed
framework which accommodates traditional defense methods to fair classification
against poisoning attacks. Through extensive experiments, the results validate
that the proposed defense framework obtains better robustness in terms of
accuracy and fairness than representative baseline methods.
- Abstract(参考訳): 公正分類は、異なる機密グループ間の平等(処理または予測品質)を達成するために分類モデルを強調することを目的としている。
しかし、公正な分類は、訓練された分類器のパフォーマンスを操作するために悪意ある訓練サンプルを故意に挿入する中毒攻撃の危険にさらされる可能性がある。
本研究では,攻撃者がトレーニングデータに少量のサンプルを挿入し,任意の機密属性と他の予測機能を持つ中毒シナリオについて検討する。
比較的訓練された分類器は、最も効果的な防御(本来は従来の分類タスクを守るために提案された)を適用した場合でも、このような中毒攻撃に対して非常に脆弱であることを示す。
公正な分類課題を守るための対策として,従来の防犯手法に適合する汎用的かつ理論的に保証された枠組みを提案する。
広範な実験により,提案手法が代表的なベースライン法よりも精度と公平性において優れたロバスト性が得られることを確認した。
関連論文リスト
- FCert: Certifiably Robust Few-Shot Classification in the Era of Foundation Models [38.019489232264796]
FCertは、データ中毒攻撃に対する最初の認証された防御法であり、数発の分類である。
1)攻撃なしでの分類精度を維持すること,2)データ中毒攻撃に対する既存の認証された防御能力を上回ること,3)効率的で汎用的なこと,である。
論文 参考訳(メタデータ) (2024-04-12T17:50:40Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Poisoning Attacks on Fair Machine Learning [13.874416271549523]
本稿では, モデル精度とアルゴリズムフェアネスの両方に対処するために, 有毒なサンプルを生成するフレームワークを提案する。
我々は,3つのオンラインアタック,対向サンプリング,対向ラベル付け,対向特徴修正を開発する。
本フレームワークでは,攻撃者が予測精度や公平性に着目して攻撃の焦点を柔軟に調整し,各候補点の影響を精度損失と公平性違反の両方に対して正確に定量化することができる。
論文 参考訳(メタデータ) (2021-10-17T21:56:14Z) - Robustness May Be at Odds with Fairness: An Empirical Study on
Class-wise Accuracy [85.20742045853738]
CNNは敵の攻撃に弱いことが広く知られている。
本稿では,対人訓練モデルのクラスワイド精度とロバスト性に関する実証的研究を提案する。
トレーニングデータセットが各クラスに同じ数のサンプルを持つ場合でも,精度と堅牢性にはクラス間差があることが判明した。
論文 参考訳(メタデータ) (2020-10-26T06:32:32Z) - Are Adversarial Examples Created Equal? A Learnable Weighted Minimax
Risk for Robustness under Non-uniform Attacks [70.11599738647963]
敵の訓練は、強力な攻撃に耐える数少ない防衛の1つである。
従来の防御機構は、基礎となるデータ分布に従って、サンプルに対する均一な攻撃を前提とします。
非一様攻撃に対して重み付けされたミニマックスリスク最適化を提案する。
論文 参考訳(メタデータ) (2020-10-24T21:20:35Z) - ATRO: Adversarial Training with a Rejection Option [10.36668157679368]
本稿では, 逆例による性能劣化を軽減するために, 拒否オプション付き分類フレームワークを提案する。
分類器と拒否関数を同時に適用することにより、テストデータポイントの分類に自信が不十分な場合に分類を控えることができる。
論文 参考訳(メタデータ) (2020-10-24T14:05:03Z) - A Framework of Randomized Selection Based Certified Defenses Against
Data Poisoning Attacks [28.593598534525267]
本稿では,ランダム選択に基づくデータ中毒攻撃に対する認証防御の枠組みを提案する。
特定の条件を満たすランダム選択方式は、データ中毒攻撃に対して堅牢であることを示す。
当社のフレームワークは,トレーニングセットと中毒モデルに関する事前知識を活用することで,堅牢性の向上を可能にする。
論文 参考訳(メタデータ) (2020-09-18T10:38:12Z) - Towards Robust Fine-grained Recognition by Maximal Separation of
Discriminative Features [72.72840552588134]
本研究は, 粒度認識ネットワークにおけるクラス間の潜伏表現の近接性を, 敵攻撃の成功の鍵となる要因として同定する。
注意に基づく正規化機構を導入し、異なるクラスの識別潜在特徴を最大限に分離する。
論文 参考訳(メタデータ) (2020-06-10T18:34:45Z) - Protecting Classifiers From Attacks. A Bayesian Approach [0.9449650062296823]
我々は,攻撃者の行動に関する正確な知識の欠如を,敵対的リスク分析を用いて考慮した代替的ベイズ的枠組みを提供する。
本研究では, 近似ベイズ計算に基づくサンプリング手法を提案する。
大規模問題に対して、微分可能な分類器を扱う際に使用できる代替のスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2020-04-18T21:21:56Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。