論文の概要: Counterfactual Explanations Can Be Manipulated
- arxiv url: http://arxiv.org/abs/2106.02666v1
- Date: Fri, 4 Jun 2021 18:56:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 11:22:32.173009
- Title: Counterfactual Explanations Can Be Manipulated
- Title(参考訳): 反事実の説明は操作できる
- Authors: Dylan Slack and Sophie Hilgard and Himabindu Lakkaraju and Sameer
Singh
- Abstract要約: 反事実的説明の脆弱性を記述した最初のフレームワークを紹介し,その操作方法を示す。
反事実的説明は、それらが堅牢でないことを示す小さな摂動の下で、大きく異なる反事実に収束する可能性がある。
これらのモデルが、監査者に対して公正に見せながら、データ内の特定のサブグループに対して、不公平に低コストなリコースを提供する方法について説明する。
- 参考スコア(独自算出の注目度): 40.78019510022835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Counterfactual explanations are emerging as an attractive option for
providing recourse to individuals adversely impacted by algorithmic decisions.
As they are deployed in critical applications (e.g. law enforcement, financial
lending), it becomes important to ensure that we clearly understand the
vulnerabilities of these methods and find ways to address them. However, there
is little understanding of the vulnerabilities and shortcomings of
counterfactual explanations. In this work, we introduce the first framework
that describes the vulnerabilities of counterfactual explanations and shows how
they can be manipulated. More specifically, we show counterfactual explanations
may converge to drastically different counterfactuals under a small
perturbation indicating they are not robust. Leveraging this insight, we
introduce a novel objective to train seemingly fair models where counterfactual
explanations find much lower cost recourse under a slight perturbation. We
describe how these models can unfairly provide low-cost recourse for specific
subgroups in the data while appearing fair to auditors. We perform experiments
on loan and violent crime prediction data sets where certain subgroups achieve
up to 20x lower cost recourse under the perturbation. These results raise
concerns regarding the dependability of current counterfactual explanation
techniques, which we hope will inspire investigations in robust counterfactual
explanations.
- Abstract(参考訳): アルゴリズム的決定によって悪影響を受ける個人へのリアクションを提供する魅力的な選択肢として、反事実的説明が登場している。
それらは重要なアプリケーション(例)にデプロイされる。
法執行機関、金融融資) これらの方法の脆弱性を明確に理解し、それに対処する方法を見つけることが重要である。
しかし、反事実的説明の脆弱性や欠点についてはほとんど理解されていない。
本稿では,反事実的説明の脆弱性を記述した最初のフレームワークを紹介し,その操作方法を示す。
より具体的には、反事実的説明は、それらが堅牢でないことを示す小さな摂動の下で、大きく異なる反事実に収束する可能性があることを示す。
この知見を生かして、一見公平に見えるモデルを訓練する新しい目的を導入し、反事実的な説明がわずかな摂動の下でより低いコストのリアクションを見つける。
我々は、これらのモデルがデータ内の特定のサブグループに対して不公平に低コストなリコースを提供し、監査者に公平に見せる方法について説明する。
我々は、特定のサブグループが摂動下で最大20倍のコスト削減を成し遂げるローンや暴力犯罪予測データセットの実験を行う。
これらの結果から, 現行の対実的説明手法の信頼性に関する懸念が持ち上がり, 強固な対実的説明における調査の刺激となることを期待する。
関連論文リスト
- Explainable bank failure prediction models: Counterfactual explanations to reduce the failure risk [0.0]
銀行失敗予測モデルの正確性と理解性が重要である。
ランダムフォレスト、サポートベクターマシン、ディープラーニングのような複雑なモデルは、高い予測性能を提供するが、説明性は低い。
この課題に対処するためには, 対実的な説明を用いることが提案されている。
論文 参考訳(メタデータ) (2024-07-14T15:27:27Z) - Counterfactuals of Counterfactuals: a back-translation-inspired approach
to analyse counterfactual editors [3.4253416336476246]
我々は、反事実的、対照的な説明の分析に焦点をあてる。
本稿では,新しい逆翻訳に基づく評価手法を提案する。
本研究では, 予測モデルと説明モデルの両方の振る舞いについて, 反事実を反復的に説明者に与えることで, 価値ある洞察を得ることができることを示す。
論文 参考訳(メタデータ) (2023-05-26T16:04:28Z) - The privacy issue of counterfactual explanations: explanation linkage
attacks [0.0]
本稿では、インスタンスベースの戦略をデプロイして、偽説明を見つける際に発生する説明リンク攻撃について紹介する。
このような攻撃に対抗するため、我々はk匿名の偽物説明を提案し、これらのk匿名の偽物説明の有効性を評価するための新しい指標として純粋性を導入する。
この結果から,データセット全体ではなく,k-匿名で説明を行うことが,説明の質に有益であることが示唆された。
論文 参考訳(メタデータ) (2022-10-21T15:44:19Z) - Don't Explain Noise: Robust Counterfactuals for Randomized Ensembles [50.81061839052459]
我々は確率論的問題として、堅牢な対実的説明の生成を定式化する。
アンサンブルモデルのロバスト性とベース学習者のロバスト性との関係を示す。
本手法は, 反実的説明から初期観測までの距離をわずかに増加させるだけで, 高いロバスト性を実現する。
論文 参考訳(メタデータ) (2022-05-27T17:28:54Z) - Counterfactual Explanations for Predictive Business Process Monitoring [0.90238471756546]
本稿では,予測プロセス監視のための対実的説明手法であるLORELEYを提案する。
LORELEYは平均忠実度97.69%の予測モデルを近似し、現実的な対実的な説明を生成する。
論文 参考訳(メタデータ) (2022-02-24T11:01:20Z) - Explainers in the Wild: Making Surrogate Explainers Robust to
Distortions through Perception [77.34726150561087]
説明における歪みの影響を知覚距離を埋め込むことで評価する手法を提案する。
Imagenet-Cデータセットの画像の説明を生成し、サロゲート説明書の知覚距離を使用して歪んだ画像と参照画像のより一貫性のある説明を作成する方法を示しています。
論文 参考訳(メタデータ) (2021-02-22T12:38:53Z) - Disambiguation of weak supervision with exponential convergence rates [88.99819200562784]
教師付き学習では、データは不完全で差別的な情報で注釈付けされる。
本稿では,ある入力から潜在的な対象のセットが与えられる弱い監督の事例である部分的ラベリングに焦点を当てる。
弱い監督から完全な監督を回復する実証的曖昧化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-04T18:14:32Z) - A Series of Unfortunate Counterfactual Events: the Role of Time in
Counterfactual Explanations [2.0305676256390934]
文献は, 事実的説明に係わる時間的依存の問題を無視していることを示す。
時間的依存とレコメンデーションの提供のため、現実のアプリケーションでは、実現可能で、行動可能で、スパースなカウンターファクトな説明が適さないかもしれない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-09T17:16:29Z) - Model extraction from counterfactual explanations [68.8204255655161]
本稿では, 敵が反実的説明によって提供された情報を利用して, 高精度かつ高精度なモデル抽出攻撃を構築する方法を示す。
我々の攻撃は、敵が相手モデルの忠実なコピーを、その偽説明にアクセスして作成することを可能にする。
論文 参考訳(メタデータ) (2020-09-03T19:02:55Z) - Evaluations and Methods for Explanation through Robustness Analysis [117.7235152610957]
分析による特徴に基づく説明の新たな評価基準を確立する。
我々は、緩やかに必要であり、予測に十分である新しい説明を得る。
我々は、現在の予測をターゲットクラスに移動させる一連の特徴を抽出するために、説明を拡張します。
論文 参考訳(メタデータ) (2020-05-31T05:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。