論文の概要: How can I choose an explainer? An Application-grounded Evaluation of
Post-hoc Explanations
- arxiv url: http://arxiv.org/abs/2101.08758v2
- Date: Fri, 22 Jan 2021 12:05:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 07:57:34.796612
- Title: How can I choose an explainer? An Application-grounded Evaluation of
Post-hoc Explanations
- Title(参考訳): どうやって説明者を選べる?
ポストホック説明の応用的評価
- Authors: S\'ergio Jesus, Catarina Bel\'em, Vladimir Balayan, Jo\~ao Bento,
Pedro Saleiro, Pedro Bizarro, Jo\~ao Gama
- Abstract要約: 説明は意思決定タスクに対する実際の影響に基づいて評価されることはめったにない。
本研究は,エンドユーザーに対して異なるレベルの情報を提供することによる影響を分離するアプリケーショングラウンド評価手法であるXAI Testを提案する。
強い統計的分析を用いて、一般的な説明者は、望まれるよりも悪い影響を持つことを示す。
- 参考スコア(独自算出の注目度): 2.7708222692419735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There have been several research works proposing new Explainable AI (XAI)
methods designed to generate model explanations having specific properties, or
desiderata, such as fidelity, robustness, or human-interpretability. However,
explanations are seldom evaluated based on their true practical impact on
decision-making tasks. Without that assessment, explanations might be chosen
that, in fact, hurt the overall performance of the combined system of ML model
+ end-users. This study aims to bridge this gap by proposing XAI Test, an
application-grounded evaluation methodology tailored to isolate the impact of
providing the end-user with different levels of information. We conducted an
experiment following XAI Test to evaluate three popular post-hoc explanation
methods -- LIME, SHAP, and TreeInterpreter -- on a real-world fraud detection
task, with real data, a deployed ML model, and fraud analysts. During the
experiment, we gradually increased the information provided to the fraud
analysts in three stages: Data Only, i.e., just transaction data without access
to model score nor explanations, Data + ML Model Score, and Data + ML Model
Score + Explanations. Using strong statistical analysis, we show that, in
general, these popular explainers have a worse impact than desired. Some of the
conclusion highlights include: i) showing Data Only results in the highest
decision accuracy and the slowest decision time among all variants tested, ii)
all the explainers improve accuracy over the Data + ML Model Score variant but
still result in lower accuracy when compared with Data Only; iii) LIME was the
least preferred by users, probably due to its substantially lower variability
of explanations from case to case.
- Abstract(参考訳): 特定の特性を持つモデル説明を生成するために設計された新しい説明可能なAI(XAI)手法や、忠実性、堅牢性、人間解釈可能性などのデシダータを提案する研究がいくつかある。
しかし、意思決定タスクに対する実際の影響に基づいて説明が評価されることはめったにない。
この評価がなければ、mlモデル+エンドユーザの複合システム全体のパフォーマンスを損なうという説明が選択されるかも知れません。
本研究の目的は、エンドユーザーに対して異なるレベルの情報を提供する影響を分離するために、アプリケーションによる評価手法であるXAI Testを提案し、このギャップを埋めることである。
我々は,実データ,デプロイされたMLモデル,不正アナリストを用いて,実世界の不正検出タスクにおいて,LIME,SHAP,TreeInterpreterの3つの一般的なポストホック説明手法を評価する実験を行った。
データのみ、つまり、モデルスコアや説明へのアクセスのないトランザクションデータ、データ+MLモデルスコア、データ+MLモデルスコア+説明です。
強固な統計分析を用いて, 一般に, これらの一般的な説明者は, 所望よりも悪い影響を持つことを示した。
結論のハイライトは以下のとおりである。 i) データのみを最も高い決定精度と最も遅い決定時間で示し、i) すべての説明者はData + ML Model Scoreの変種よりも正確性を改善するが、それでもデータのみと比較して精度は低い;iii) LIMEはおそらく、ケースからケースへの説明の実質的な多様性のために、ユーザによって最も好まれていない。
関連論文リスト
- Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Understanding and Testing Generalization of Deep Networks on
Out-of-Distribution Data [30.471871571256198]
ディープネットワークモデルは、In-Distributionデータでは優れた性能を発揮するが、Out-Of-Distributionデータでは著しく失敗する可能性がある。
本研究は,実験的なIDテストの問題を分析し,OODテストパラダイムを設計することを目的とする。
論文 参考訳(メタデータ) (2021-11-17T15:29:07Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - "How Does It Detect A Malicious App?" Explaining the Predictions of
AI-based Android Malware Detector [6.027885037254337]
そこで本研究では,Androidのマルウェア検出に応用したAIモデルに対して,新たなモデルに依存しない説明手法を提案する。
提案手法は,データの特徴と予測との関係を2つのステップで同定し,定量化する。
まず,提案手法は,AIモデルが定量的に相手のサンプルによってどのように回避されているかを検出するのに役立つことを実証する。
論文 参考訳(メタデータ) (2021-11-06T11:25:24Z) - On Predictive Explanation of Data Anomalies [3.1798318618973362]
PROTEUSは、不均衡なデータセットの機能選択用に設計されたAutoMLパイプラインである。
教師なし検出器の決定面を近似することで予測的な説明を生成する。
予期せぬデータで予測性能を確実に推定する。
論文 参考訳(メタデータ) (2021-10-18T16:59:28Z) - Expected Validation Performance and Estimation of a Random Variable's
Maximum [48.83713377993604]
予測された検証性能に対する3つの統計的推定器を解析する。
偏りのない推定器は最も分散度が高く、最小分散度を持つ推定器は最大のバイアスを持つ。
2つの偏りのある推定器は、最も少ない誤った結論につながる。
論文 参考訳(メタデータ) (2021-10-01T18:48:47Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - FreaAI: Automated extraction of data slices to test machine learning
models [2.475112368179548]
本稿では,ML ソリューションが動作しない説明可能なデータスライスを実現する機能モデルの自動抽出の実現可能性を示す。
我々の新しい技術であるIBM FreaAI aka FreaAIは、構造化MLテストデータや他のラベル付きデータからそのようなスライスを抽出する。
論文 参考訳(メタデータ) (2021-08-12T09:21:16Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Search Methods for Sufficient, Socially-Aligned Feature Importance
Explanations with In-Distribution Counterfactuals [72.00815192668193]
特徴重要度(FI)推定は一般的な説明形式であり、テスト時に特定の入力特徴を除去することによって生じるモデル信頼度の変化を計算し、評価することが一般的である。
FIに基づく説明の未探索次元についていくつかの考察を行い、この説明形式に対する概念的および実証的な改善を提供する。
論文 参考訳(メタデータ) (2021-06-01T20:36:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。