論文の概要: RobustFair: Adversarial Evaluation through Fairness Confusion Directed
Gradient Search
- arxiv url: http://arxiv.org/abs/2305.10906v1
- Date: Thu, 18 May 2023 12:07:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 15:24:08.313191
- Title: RobustFair: Adversarial Evaluation through Fairness Confusion Directed
Gradient Search
- Title(参考訳): robustfair:fairness confusion directedgradient searchによる敵対的評価
- Authors: Xuran Li, Peng Wu, Kaixiang Dong, Zhen Zhang
- Abstract要約: 本稿では,DNNの精度向上のための高調波評価手法であるRobustFairを提案する。
頑丈さや公平さの欠陥を同時に特定することで、頑健さと個々人の公正さの評価を高めることができる。
- 参考スコア(独自算出の注目度): 6.369294111092676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The trustworthiness of DNNs is often challenged by their vulnerability to
minor adversarial perturbations, which may not only undermine prediction
accuracy (robustness) but also cause biased predictions for similar inputs
(individual fairness). Accurate fairness has been recently proposed to enforce
a harmonic balance between accuracy and individual fairness. It induces the
notion of fairness confusion matrix to categorize predictions as true fair,
true biased, false fair, and false biased. This paper proposes a harmonic
evaluation approach, RobustFair, for the accurate fairness of DNNs, using
adversarial perturbations crafted through fairness confusion directed gradient
search. By using Taylor expansions to approximate the ground truths of
adversarial instances, RobustFair can particularly identify the robustness
defects entangled for spurious fairness, which are often elusive in robustness
evaluation, and missing in individual fairness evaluation. RobustFair can boost
robustness and individual fairness evaluations by identifying robustness or
fairness defects simultaneously. Empirical case studies on fairness benchmark
datasets show that, compared with the state-of-the-art white-box robustness and
individual fairness testing approaches, RobustFair detects significantly
1.77-11.87 times adversarial perturbations, yielding 1.83-13.12 times biased
and 1.53-8.22 times false instances. The adversarial instances can then be
effectively exploited to improve the accurate fairness (and hence accuracy and
individual fairness) of the original deep neural network through retraining.
The empirical case studies further show that the adversarial instances
identified by RobustFair outperform those identified by the other testing
approaches, in promoting 21% accurate fairness and 19% individual fairness on
multiple sensitive attributes, without losing accuracy at all or even promoting
it by up to 4%.
- Abstract(参考訳): DNNの信頼性は、予測精度を損なうだけでなく、類似した入力に対するバイアスのある予測(個人的公正性)を引き起こす可能性がある、小さな敵の摂動に対する脆弱性によってしばしば疑問視される。
近年、精度と個人公正の調和バランスをとるために正確な公正性が提案されている。
これは公正混乱行列の概念を誘導し、予測を真公正、真バイアス、偽公正、偽バイアスと分類する。
本稿では,fairness confusion directedgradient searchにより構築した逆摂動を用いて,dnnの正確なフェアネスのための調和評価手法であるロバストフェアを提案する。
テイラー展開を用いて、敵のインスタンスの基底的真実を近似することで、ロバストフェアは、しばしばロバスト性評価において解明され、個々のフェアネス評価において欠落する、突発的公正性のために絡み合うロバスト性欠陥を特に特定することができる。
robustfairは、ロバスト性やフェアネスの欠陥を同時に特定することで、ロバスト性と個別のフェアネス評価を促進することができる。
フェアネスベンチマークデータセットに関する実証的なケーススタディでは、最先端のホワイトボックスの堅牢性と個々のフェアネステストアプローチと比較して、ロバストフェアは1.77-11.87倍の逆の摂動を検出し、バイアスが1.83-13.12倍、偽の1.53-8.22倍となる。
敵のインスタンスを効果的に利用して、リトレーニングを通じて元のディープニューラルネットワークの正確な公正性(すなわち精度と個人の公正性)を改善することができる。
実証的なケーススタディは、ロバストフェアによって特定された敵インスタンスが、他のテストアプローチによって識別されたものよりも優れており、21%の正確さと19%の個人的公平性が、精度を損なうことなく、4%まで促進されることも示している。
関連論文リスト
- Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - The Double-Edged Sword of Input Perturbations to Robust Accurate Fairness [23.927644024788563]
ディープニューラルネットワーク(DNN)は、逆入力摂動に敏感であることが知られている。
形式的に、堅牢な正確な公正性は、入力摂動を受ける場合、インスタンスの予測が基底真理と一貫して一致することを要求する。
本研究は, 慎重に設計した良性摂動により, このような対向インスタンスを効果的に扱うことができることを示す。
論文 参考訳(メタデータ) (2024-04-01T09:29:16Z) - Counterfactual Fairness for Predictions using Generative Adversarial
Networks [28.65556399421874]
我々は, 対実フェアネスの下で予測を行うための, GCFN (Generative Counterfactual Fairness Network) と呼ばれる新しいディープニューラルネットワークを開発した。
本手法は, 対実的公正性の概念を保証するために数学的に保証されている。
論文 参考訳(メタデータ) (2023-10-26T17:58:39Z) - Understanding Fairness Surrogate Functions in Algorithmic Fairness [21.555040357521907]
フェアネスの定義とフェアネスのサロゲート関数の間には、サロゲートとフェアネスのギャップがあることが示される。
我々は、不公平を緩和するギャップを反復的に減少させる「バランスド・サロゲート」という、新規で一般的なアルゴリズムを精査する。
論文 参考訳(メタデータ) (2023-10-17T12:40:53Z) - Learning for Counterfactual Fairness from Observational Data [62.43249746968616]
公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。
カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。
本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。
論文 参考訳(メタデータ) (2023-07-17T04:08:29Z) - Chasing Fairness Under Distribution Shift: A Model Weight Perturbation
Approach [72.19525160912943]
まず,分布シフト,データ摂動,モデルウェイト摂動の関連性を理論的に検証した。
次に、ターゲットデータセットの公平性を保証するのに十分な条件を分析します。
これらの十分な条件により、ロバストフェアネス正則化(RFR)を提案する。
論文 参考訳(メタデータ) (2023-03-06T17:19:23Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Increasing Fairness in Predictions Using Bias Parity Score Based Loss
Function Regularization [0.8594140167290099]
従来のバイナリクロスエントロピーに基づく精度損失と合わせて使用する正則化成分の公平性向上のファミリを導入する。
我々は、人口統計に基づく成人所得データセットと同様に、再分配予測タスクの文脈に展開する。
論文 参考訳(メタデータ) (2021-11-05T17:42:33Z) - Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。
我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。
そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文 参考訳(メタデータ) (2021-09-30T19:19:09Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。