論文の概要: Characterizing the risk of fairwashing
- arxiv url: http://arxiv.org/abs/2106.07504v1
- Date: Mon, 14 Jun 2021 15:33:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 15:44:21.876837
- Title: Characterizing the risk of fairwashing
- Title(参考訳): フェアウォッシングのリスクを特徴づける
- Authors: Ulrich A\"ivodji, Hiromi Arai, S\'ebastien Gambs, Satoshi Hara
- Abstract要約: 我々は,不公平度が低い高忠実度説明モデルを構築することが可能であることを示す。
公正な説明モデルが訴訟群を超えて一般化可能であることを示す。
フェアウォッシング攻撃はブラックボックスモデル間で伝達可能であると結論付けている。
- 参考スコア(独自算出の注目度): 8.545202841051582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fairwashing refers to the risk that an unfair black-box model can be
explained by a fairer model through post-hoc explanations' manipulation.
However, to realize this, the post-hoc explanation model must produce different
predictions than the original black-box on some inputs, leading to a decrease
in the fidelity imposed by the difference in unfairness. In this paper, our
main objective is to characterize the risk of fairwashing attacks, in
particular by investigating the fidelity-unfairness trade-off. First, we
demonstrate through an in-depth empirical study on black-box models trained on
several real-world datasets and for several statistical notions of fairness
that it is possible to build high-fidelity explanation models with low
unfairness. For instance, we find that fairwashed explanation models can
exhibit up to $99.20\%$ fidelity to the black-box models they explain while
being $50\%$ less unfair. These results suggest that fidelity alone should not
be used as a proxy for the quality of black-box explanations. Second, we show
that fairwashed explanation models can generalize beyond the suing group
(\emph{i.e.}, data points that are being explained), which will only worsen as
more stable fairness methods get developed. Finally, we demonstrate that
fairwashing attacks can transfer across black-box models, meaning that other
black-box models can perform fairwashing without explicitly using their
predictions.
- Abstract(参考訳): フェアウォッシング(Fairwashing)とは、不公平なブラックボックスモデルが、ポストホックな説明の操作を通じてフェアラーモデルによって説明できるリスクを指す。
しかし、これを実現するために、ポストホックの説明モデルは、いくつかの入力において元のブラックボックスとは異なる予測をしなければなりません。
本稿では,フェアウォッシング攻撃のリスクを,特に忠実・不公平なトレードオフを調査して特徴付けることを目的とする。
まず,実世界のデータセットでトレーニングされたブラックボックスモデルと,不公平さの低い高忠実な説明モデルを構築することができるという公平性に関するいくつかの統計的概念について,詳細な実証研究を行った。
例えば、フェアウォッシュされた説明モデルは、説明するブラックボックスモデルに対して最大99.20\%$不公平であると同時に、50\%$不公平であることを示すことができる。
これらの結果から,ブラックボックスの説明の質の指標として,忠実度だけでは使用すべきでないことが示唆された。
第二に、フェアウォッシュされた説明モデルは、訴訟群(\emph{i.e。
これは、より安定したフェアネスメソッドが開発されるにつれて、さらに悪化するだけである。
最後に,ブラックボックスモデル間でフェアウォッシング攻撃が移動可能であること,つまり,ブラックボックスモデルが予測を明示的に使わずにフェアウォッシングを行うことができることを実証する。
関連論文リスト
- "Patriarchy Hurts Men Too." Does Your Model Agree? A Discussion on Fairness Assumptions [3.706222947143855]
グループフェアネスの文脈では、このアプローチはデータへのバイアスの導入方法に関する暗黙の仮定を曖昧にすることが多い。
我々は偏りの過程が公正スコアの単調関数であり、感度属性のみに依存すると仮定している。
偏見過程の振舞いは単なる単調性よりも複雑であり、つまり暗黙の仮定を特定し、否定する必要がある。
論文 参考訳(メタデータ) (2024-08-01T07:06:30Z) - Discriminative Feature Attributions: Bridging Post Hoc Explainability
and Inherent Interpretability [29.459228981179674]
ポストホックの説明は、基礎となるタスクにとって重要でない、あるいは差別的でない機能に、誤って高い重要性がある。
一方、モデルアーキテクチャに説明を明示的にエンコードすることでこれらの問題を回避することができる。
本研究では,ディストラクタ消去に頑健なブラックボックスモデルを適応させる手法であるディストラクタ消去調整法(DiET)を提案する。
論文 参考訳(メタデータ) (2023-07-27T17:06:02Z) - Learning for Counterfactual Fairness from Observational Data [62.43249746968616]
公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。
カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。
本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。
論文 参考訳(メタデータ) (2023-07-17T04:08:29Z) - DualFair: Fair Representation Learning at Both Group and Individual
Levels via Contrastive Self-supervision [73.80009454050858]
この研究は、DualFairと呼ばれる自己教師型モデルを提示し、学習された表現から性別や人種などのセンシティブな属性をデバイアスすることができる。
我々のモデルは、グループフェアネスと対実フェアネスという2つのフェアネス基準を共同で最適化する。
論文 参考訳(メタデータ) (2023-03-15T07:13:54Z) - Bi-Noising Diffusion: Towards Conditional Diffusion Models with
Generative Restoration Priors [64.24948495708337]
本研究では,事前訓練した非条件拡散モデルを用いて,予測サンプルをトレーニングデータ多様体に導入する手法を提案する。
我々は,超解像,着色,乱流除去,画像劣化作業におけるアプローチの有効性を実証するための総合的な実験を行った。
論文 参考訳(メタデータ) (2022-12-14T17:26:35Z) - Revealing Unfair Models by Mining Interpretable Evidence [50.48264727620845]
機械学習の人気は、不公平なモデルがハイリスクなアプリケーションにデプロイされるリスクを高めている。
本稿では,解釈可能な証拠をマイニングすることで不公平なモデルを明らかにする新しい課題に取り組む。
本手法は,訓練されたモデルの不公平性を効果的に明らかにするために,極めて解釈可能な確固たる証拠を見出す。
論文 参考訳(メタデータ) (2022-07-12T20:03:08Z) - What will it take to generate fairness-preserving explanations? [15.801388187383973]
我々は、データセットに適用された説明に焦点をあて、ブラックボックスアルゴリズムの公平性を必ずしも保持していないことを示唆する。
フェアネスの観点から情報的かつ関連性の高い説明を評価・生成するための今後の研究方向を提案する。
論文 参考訳(メタデータ) (2021-06-24T23:03:25Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Biased Models Have Biased Explanations [10.9397029555303]
機械学習モデルで生成された属性に基づく説明のレンズを通して、機械学習(FairML)の公平性を検討します。
まず、群フェアネスの既存の統計的概念を翻訳し、モデルから与えられた説明の観点からこれらの概念を定義する。
そこで本研究では,ブラックボックスモデルに対する新しい(不公平な)検出方法を提案する。
論文 参考訳(メタデータ) (2020-12-20T18:09:45Z) - Model extraction from counterfactual explanations [68.8204255655161]
本稿では, 敵が反実的説明によって提供された情報を利用して, 高精度かつ高精度なモデル抽出攻撃を構築する方法を示す。
我々の攻撃は、敵が相手モデルの忠実なコピーを、その偽説明にアクセスして作成することを可能にする。
論文 参考訳(メタデータ) (2020-09-03T19:02:55Z) - Interpretable Companions for Black-Box Models [13.39487972552112]
事前訓練されたブラックボックス分類器に対する解釈可能な共役モデルを提案する。
任意の入力に対して、ユーザーは高い精度でブラックボックスモデルから予測を受け付けるか、説明をしないか、または少し低い精度で解釈可能な予測を得るためにコンパニオンルールを使用することができる。
コンパニオンモデルは、データとブラックボックスモデルの予測から訓練され、透明性-精度曲線とモデルの複雑さの下で、客観的な結合領域を持つ。
論文 参考訳(メタデータ) (2020-02-10T01:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。