論文の概要: Feature Attributions and Counterfactual Explanations Can Be Manipulated
- arxiv url: http://arxiv.org/abs/2106.12563v1
- Date: Wed, 23 Jun 2021 17:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 16:09:15.377290
- Title: Feature Attributions and Counterfactual Explanations Can Be Manipulated
- Title(参考訳): 特徴帰属と反事実的説明は操作できる
- Authors: Dylan Slack, Sophie Hilgard, Sameer Singh, Hima Lakkaraju
- Abstract要約: 本稿では,モデル非依存的特徴属性法を制御するバイアスモデルの設計方法について述べる。
これらの脆弱性は、敵がバイアス付きモデルをデプロイすることを可能にするが、説明はこのバイアスを明らかにしないため、ステークホルダーをモデルの信頼性を損なう。
我々は、CompASやCommunity & Crimeを含む実世界のデータセットの操作を評価し、実際に操作できる説明を見つける。
- 参考スコア(独自算出の注目度): 32.579094387004346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As machine learning models are increasingly used in critical decision-making
settings (e.g., healthcare, finance), there has been a growing emphasis on
developing methods to explain model predictions. Such \textit{explanations} are
used to understand and establish trust in models and are vital components in
machine learning pipelines. Though explanations are a critical piece in these
systems, there is little understanding about how they are vulnerable to
manipulation by adversaries. In this paper, we discuss how two broad classes of
explanations are vulnerable to manipulation. We demonstrate how adversaries can
design biased models that manipulate model agnostic feature attribution methods
(e.g., LIME \& SHAP) and counterfactual explanations that hill-climb during the
counterfactual search (e.g., Wachter's Algorithm \& DiCE) into
\textit{concealing} the model's biases. These vulnerabilities allow an
adversary to deploy a biased model, yet explanations will not reveal this bias,
thereby deceiving stakeholders into trusting the model. We evaluate the
manipulations on real world data sets, including COMPAS and Communities \&
Crime, and find explanations can be manipulated in practice.
- Abstract(参考訳): 機械学習モデルは、重要な意思決定設定(医療や金融など)でますます使われているため、モデル予測を説明する方法の開発に重点が置かれている。
このような \textit{explanations} はモデルの理解と確立に使用され、マシンラーニングパイプラインの重要なコンポーネントである。
これらのシステムでは、説明は重要な部分であるが、敵による操作に対する脆弱性についてはほとんど理解されていない。
本稿では,2つの幅広い説明のクラスが操作に対して脆弱であるかを論じる。
敵がモデルに依存しない特徴帰属法(例: lime \& shap)を操作するバイアス付きモデルをどのように設計するかを実証し、反事実探索(例:wachterのアルゴリズム \& dice)中のヒル・クライムがモデルのバイアスである \textit{concealing} へ変換されるという反事実的説明を実証する。
これらの脆弱性は、敵がバイアス付きモデルをデプロイすることを可能にするが、説明はこのバイアスを明らかにしないため、ステークホルダーをモデルの信頼性を損なう。
我々は,実世界のデータセット上での操作について,compas や community \& crime などを評価し,実際に操作できる説明を見つける。
関連論文リスト
- Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Explaining Explainability: Towards Deeper Actionable Insights into Deep
Learning through Second-order Explainability [70.60433013657693]
2階説明可能なAI(SOXAI)は、最近インスタンスレベルからデータセットレベルまで説明可能なAI(XAI)を拡張するために提案されている。
そこで本研究では,SOXAIの動作可能な洞察に基づくトレーニングセットから無関係な概念を除外することで,モデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T23:24:01Z) - Interpretable Data-Based Explanations for Fairness Debugging [7.266116143672294]
Gopherは、バイアスや予期せぬモデルの振る舞いに関するコンパクトで解釈可能な、因果的な説明を生成するシステムである。
我々は,学習データに介入する程度を,サブセットの削除や更新によって定量化する因果責任の概念を導入し,バイアスを解消する。
この概念に基づいて、モデルバイアスを説明するトップkパターンを生成するための効率的なアプローチを開発する。
論文 参考訳(メタデータ) (2021-12-17T20:10:00Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Better sampling in explanation methods can prevent dieselgate-like
deception [0.0]
予測モデルの解釈性は、それらのバイアスとエラーの原因を決定するために必要である。
IME、LIME、SHAPなどの一般的なテクニックでは、インスタンス機能の摂動を使用して個々の予測を説明します。
改良されたサンプリングによりLIMEとSHAPのロバスト性が向上し,以前に未試験のメソッドIMEがすでに最もロバストであることが示されている。
論文 参考訳(メタデータ) (2021-01-26T13:41:37Z) - Explainable Artificial Intelligence: How Subsets of the Training Data
Affect a Prediction [2.3204178451683264]
データサブセットの重要性をトレーニングするためにShapley値と呼ぶ新しい方法論を提案します。
提案手法を用いて,モデルの偏りや誤ったトレーニングデータを明らかにする方法を示す。
この説明は、アルゴリズムの内部動作をより認識し、同様の予測を生成するモデルがトレーニングデータの非常に異なる部分に基づいている方法を説明することを可能にすると主張しています。
論文 参考訳(メタデータ) (2020-12-07T12:15:47Z) - Deducing neighborhoods of classes from a fitted model [68.8204255655161]
本稿では,新しいタイプの解釈可能な機械学習手法を提案する。
量子シフトを用いた分類モデルでは、特徴空間の予測クラスへの分割を理解するのに役立ちます。
基本的に、実際のデータポイント(または特定の関心点)を使用し、特定の特徴をわずかに引き上げたり減少させたりした後の予測の変化を観察する。
論文 参考訳(メタデータ) (2020-09-11T16:35:53Z) - Model extraction from counterfactual explanations [68.8204255655161]
本稿では, 敵が反実的説明によって提供された情報を利用して, 高精度かつ高精度なモデル抽出攻撃を構築する方法を示す。
我々の攻撃は、敵が相手モデルの忠実なコピーを、その偽説明にアクセスして作成することを可能にする。
論文 参考訳(メタデータ) (2020-09-03T19:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。