論文の概要: The Road to Explainability is Paved with Bias: Measuring the Fairness of
Explanations
- arxiv url: http://arxiv.org/abs/2205.03295v1
- Date: Fri, 6 May 2022 15:23:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-09 15:29:07.401533
- Title: The Road to Explainability is Paved with Bias: Measuring the Fairness of
Explanations
- Title(参考訳): 説明可能性への道はバイアスで舗装されている:説明の公正さを測る
- Authors: Aparna Balagopalan, Haoran Zhang, Kimia Hamidieh, Thomas Hartvigsen,
Frank Rudzicz, Marzyeh Ghassemi
- Abstract要約: モデル予測を信頼するために、ポストホックな説明可能性法がしばしば提案される。
ファイナンス、ヘルスケア、大学入学、および米国司法制度の4つの設定の実際のデータを使用します。
説明モデルの近似品質、あるいは忠実度は、部分群間で大きく異なることが分かる。
- 参考スコア(独自算出の注目度): 30.248116795946977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning models in safety-critical settings like healthcare are often
blackboxes: they contain a large number of parameters which are not transparent
to users. Post-hoc explainability methods where a simple, human-interpretable
model imitates the behavior of these blackbox models are often proposed to help
users trust model predictions. In this work, we audit the quality of such
explanations for different protected subgroups using real data from four
settings in finance, healthcare, college admissions, and the US justice system.
Across two different blackbox model architectures and four popular
explainability methods, we find that the approximation quality of explanation
models, also known as the fidelity, differs significantly between subgroups. We
also demonstrate that pairing explainability methods with recent advances in
robust machine learning can improve explanation fairness in some settings.
However, we highlight the importance of communicating details of non-zero
fidelity gaps to users, since a single solution might not exist across all
settings. Finally, we discuss the implications of unfair explanation models as
a challenging and understudied problem facing the machine learning community.
- Abstract(参考訳): 医療のような安全クリティカルな環境での機械学習モデルはブラックボックスであることが多い。
ブラックボックスモデルの振る舞いを模倣する単純な人間解釈可能なモデルがモデル予測を信頼するためにしばしば提案されるポストホックな説明可能性手法。
本研究では, 金融, 医療, 大学入学, 司法制度の4つの設定から得られた実データを用いて, 異なる保護サブグループの説明の質を監査する。
2つの異なるブラックボックスモデルアーキテクチャと4つの一般的な説明可能性手法の間で、説明モデルの近似品質がサブグループ間で大きく異なることが判明した。
また、ロバストな機械学習の最近の進歩と組み合わせた説明可能性手法が、いくつかの設定で説明の公平性を向上させることを実証する。
しかしながら、すべての設定に単一のソリューションが存在するとは限らないため、ユーザに対する非ゼロ忠実性ギャップの詳細を伝えることの重要性を強調している。
最後に,不公平な説明モデルの意義を,機械学習コミュニティが直面する困難かつ未熟な問題として論じる。
関連論文リスト
- DISCRET: Synthesizing Faithful Explanations For Treatment Effect Estimation [21.172795461188578]
我々は,各サンプルに対して忠実で規則に基づく説明を合成する自己解釈型ITTフレームワークdisCRETを提案する。
DISCRETの背景にある重要な洞察は、説明が2つのデータベースクエリとして機能し、類似したサンプルのサブグループを識別できるということである。
大規模な探索空間からこれらの説明を効率的に合成する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-02T04:01:08Z) - Learning with Explanation Constraints [91.23736536228485]
我々は、説明がモデルの学習をどのように改善するかを分析するための学習理論フレームワークを提供する。
我々は,多数の合成および実世界の実験に対して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T15:06:47Z) - Revealing Unfair Models by Mining Interpretable Evidence [50.48264727620845]
機械学習の人気は、不公平なモデルがハイリスクなアプリケーションにデプロイされるリスクを高めている。
本稿では,解釈可能な証拠をマイニングすることで不公平なモデルを明らかにする新しい課題に取り組む。
本手法は,訓練されたモデルの不公平性を効果的に明らかにするために,極めて解釈可能な確固たる証拠を見出す。
論文 参考訳(メタデータ) (2022-07-12T20:03:08Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - Interpretation of Black Box NLP Models: A Survey [0.0]
摂動に基づくポストホックの説明は、機械学習モデルの構築後に解釈するために広く使われているアプローチである。
本稿では,中心極限定理に基づく仮説テストフレームワークを用いて,解析結果の安定性を保証するのに必要な摂動点数を決定することを提案する。
論文 参考訳(メタデータ) (2022-03-31T14:54:35Z) - Feature Attributions and Counterfactual Explanations Can Be Manipulated [32.579094387004346]
本稿では,モデル非依存的特徴属性法を制御するバイアスモデルの設計方法について述べる。
これらの脆弱性は、敵がバイアス付きモデルをデプロイすることを可能にするが、説明はこのバイアスを明らかにしないため、ステークホルダーをモデルの信頼性を損なう。
我々は、CompASやCommunity & Crimeを含む実世界のデータセットの操作を評価し、実際に操作できる説明を見つける。
論文 参考訳(メタデータ) (2021-06-23T17:43:31Z) - S-LIME: Stabilized-LIME for Model Explanation [7.479279851480736]
摂動に基づくポストホックの説明は、機械学習モデルの構築後に解釈するために広く使われているアプローチである。
本稿では,中心極限定理に基づく仮説テストフレームワークを用いて,解析結果の安定性を保証するのに必要な摂動点数を決定することを提案する。
論文 参考訳(メタデータ) (2021-06-15T04:24:59Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Model extraction from counterfactual explanations [68.8204255655161]
本稿では, 敵が反実的説明によって提供された情報を利用して, 高精度かつ高精度なモデル抽出攻撃を構築する方法を示す。
我々の攻撃は、敵が相手モデルの忠実なコピーを、その偽説明にアクセスして作成することを可能にする。
論文 参考訳(メタデータ) (2020-09-03T19:02:55Z) - Explainable Recommender Systems via Resolving Learning Representations [57.24565012731325]
説明はユーザー体験を改善し、システムの欠陥を発見するのに役立つ。
本稿では,表現学習プロセスの透明性を向上させることによって,説明可能な新しい推薦モデルを提案する。
論文 参考訳(メタデータ) (2020-08-21T05:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。