論文の概要: Adversarial Bias: Data Poisoning Attacks on Fairness
- arxiv url: http://arxiv.org/abs/2511.08331v1
- Date: Wed, 12 Nov 2025 01:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.764088
- Title: Adversarial Bias: Data Poisoning Attacks on Fairness
- Title(参考訳): 敵対的バイアス: 公正に対するデータ中毒攻撃
- Authors: Eunice Chan, Hanghang Tong,
- Abstract要約: AIシステムの公正性を意図的に侵害する研究は比較的少ない。
本研究は, 簡便な敵毒対策が, 最大不公平な行動を引き起こすのに十分であることを示す理論的解析である。
当社の攻撃は、複数のモデルやデータセットにわたる公正度メトリクスの劣化において、既存の方法よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 48.17618627431355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growing adoption of AI and machine learning systems in real-world applications, ensuring their fairness has become increasingly critical. The majority of the work in algorithmic fairness focus on assessing and improving the fairness of machine learning systems. There is relatively little research on fairness vulnerability, i.e., how an AI system's fairness can be intentionally compromised. In this work, we first provide a theoretical analysis demonstrating that a simple adversarial poisoning strategy is sufficient to induce maximally unfair behavior in naive Bayes classifiers. Our key idea is to strategically inject a small fraction of carefully crafted adversarial data points into the training set, biasing the model's decision boundary to disproportionately affect a protected group while preserving generalizable performance. To illustrate the practical effectiveness of our method, we conduct experiments across several benchmark datasets and models. We find that our attack significantly outperforms existing methods in degrading fairness metrics across multiple models and datasets, often achieving substantially higher levels of unfairness with a comparable or only slightly worse impact on accuracy. Notably, our method proves effective on a wide range of models, in contrast to prior work, demonstrating a robust and potent approach to compromising the fairness of machine learning systems.
- Abstract(参考訳): 現実世界のアプリケーションにAIと機械学習システムが採用されるにつれ、彼らの公正性はますます重要になっている。
アルゴリズムフェアネスの研究の大部分は、機械学習システムの公正性を評価し改善することに焦点を当てている。
フェアネスの脆弱性、すなわちAIシステムのフェアネスが意図的に侵害される可能性についての研究は比較的少ない。
本研究は, ベイズ分類器において, 簡易な逆毒対策が, 最大不公平な振る舞いを誘導するのに十分であることを示す理論的解析を行った。
我々のキーとなる考え方は、厳密に構築された少数の逆データポイントをトレーニングセットに戦略的に注入し、モデルの決定境界を偏り、一般化可能な性能を維持しながら保護されたグループに不均等に影響を及ぼすようにすることである。
本手法の実用性を説明するため,いくつかのベンチマークデータセットとモデルを用いて実験を行った。
当社の攻撃は、複数のモデルやデータセットにわたる公正度測定値の低下において、既存の方法よりも大幅に優れており、精度に匹敵するあるいはわずかに悪影響を及ぼすことなく、はるかに高い不公平度を達成することが分かっています。
特に,本手法は,従来の研究とは対照的に,幅広いモデルにおいて有効であることが証明され,機械学習システムの公正性を向上するための堅牢で強力なアプローチが実証された。
関連論文リスト
- Fairness and Robustness in Machine Unlearning [20.758637391023345]
機械学習アルゴリズムにおける公平性と堅牢性に焦点を当てる。
実験では、現在の最先端の非学習アルゴリズムが敵攻撃に対する脆弱性を実証している。
中間層と最後の層でのアンラーニングが時間とメモリの複雑さに十分で費用対効果があることを実証する。
論文 参考訳(メタデータ) (2025-04-18T10:31:44Z) - Towards Fairness-Aware Adversarial Learning [13.932705960012846]
フェアネス・アウェア・アドバーサリアル・ラーニング(FAAL)という新しい学習パラダイムを提案する。
提案手法は,異なるカテゴリ間で最悪の分布を求めることを目的としており,高い確率で上界性能が得られることを保証している。
特にFAALは、不公平なロバストモデルを2つのエポックで公平に調整できるが、全体的なクリーンで堅牢なアキュラシーを損なうことはない。
論文 参考訳(メタデータ) (2024-02-27T18:01:59Z) - Preference Poisoning Attacks on Reward Model Learning [47.00395978031771]
ペア比較による報酬モデル学習における脆弱性の性質と範囲について検討する。
本稿では,これらの攻撃に対するアルゴリズム的アプローチのクラスとして,勾配に基づくフレームワークと,ランク・バイ・ディスタンス手法のいくつかのバリエーションを提案する。
最高の攻撃は多くの場合、非常に成功しており、最も極端な場合、100%の成功率を達成することができ、データのわずか0.3%が毒殺されている。
論文 参考訳(メタデータ) (2024-02-02T21:45:24Z) - Contrastive Learning for Fair Representations [50.95604482330149]
訓練された分類モデルは、意図せずバイアスのある表現や予測につながる可能性がある。
対戦訓練のような既存の分類モデルのデバイアス化手法は、訓練に高価であり、最適化が困難であることが多い。
比較学習を取り入れたバイアス軽減手法を提案し、同じクラスラベルを共有するインスタンスに類似した表現を推奨する。
論文 参考訳(メタデータ) (2021-09-22T10:47:51Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Fairness in Semi-supervised Learning: Unlabeled Data Help to Reduce
Discrimination [53.3082498402884]
機械学習の台頭における投機は、機械学習モデルによる決定が公正かどうかである。
本稿では,未ラベルデータのラベルを予測するための擬似ラベリングを含む,前処理フェーズにおける公平な半教師付き学習の枠組みを提案する。
偏見、分散、ノイズの理論的分解分析は、半教師付き学習における差別の異なる源とそれらが公平性に与える影響を浮き彫りにする。
論文 参考訳(メタデータ) (2020-09-25T05:48:56Z) - Fair Meta-Learning For Few-Shot Classification [7.672769260569742]
バイアスデータに基づいてトレーニングされた機械学習アルゴリズムは、不公平な予測を行う傾向がある。
本稿では,メタトレイン中のバイアスを効果的に軽減する,高速適応型数ショットメタラーニング手法を提案する。
提案手法は,モデル出力のバイアスを効果的に軽減し,不明瞭なタスクに対して精度と公平性の両方を一般化することを実証的に実証する。
論文 参考訳(メタデータ) (2020-09-23T22:33:47Z) - On Adversarial Bias and the Robustness of Fair Machine Learning [11.584571002297217]
異なるサイズと分布の群に同じ重要性を与えることで、トレーニングデータにおけるバイアスの影響を防止できることが、ロバストネスと矛盾する可能性があることを示す。
少数のトレーニングデータのサンプリングやラベル付けを制御できる敵は、制約のないモデルで達成できる以上のテスト精度を著しく削減することができる。
我々は、複数のアルゴリズムとベンチマークデータセットに対する攻撃の実証的な評価を通じて、公正な機械学習の堅牢性を分析する。
論文 参考訳(メタデータ) (2020-06-15T18:17:44Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。