論文の概要: How can I choose an explainer? An Application-grounded Evaluation of
Post-hoc Explanations
- arxiv url: http://arxiv.org/abs/2101.08758v2
- Date: Fri, 22 Jan 2021 12:05:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 07:57:34.796612
- Title: How can I choose an explainer? An Application-grounded Evaluation of
Post-hoc Explanations
- Title(参考訳): どうやって説明者を選べる?
ポストホック説明の応用的評価
- Authors: S\'ergio Jesus, Catarina Bel\'em, Vladimir Balayan, Jo\~ao Bento,
Pedro Saleiro, Pedro Bizarro, Jo\~ao Gama
- Abstract要約: 説明は意思決定タスクに対する実際の影響に基づいて評価されることはめったにない。
本研究は,エンドユーザーに対して異なるレベルの情報を提供することによる影響を分離するアプリケーショングラウンド評価手法であるXAI Testを提案する。
強い統計的分析を用いて、一般的な説明者は、望まれるよりも悪い影響を持つことを示す。
- 参考スコア(独自算出の注目度): 2.7708222692419735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There have been several research works proposing new Explainable AI (XAI)
methods designed to generate model explanations having specific properties, or
desiderata, such as fidelity, robustness, or human-interpretability. However,
explanations are seldom evaluated based on their true practical impact on
decision-making tasks. Without that assessment, explanations might be chosen
that, in fact, hurt the overall performance of the combined system of ML model
+ end-users. This study aims to bridge this gap by proposing XAI Test, an
application-grounded evaluation methodology tailored to isolate the impact of
providing the end-user with different levels of information. We conducted an
experiment following XAI Test to evaluate three popular post-hoc explanation
methods -- LIME, SHAP, and TreeInterpreter -- on a real-world fraud detection
task, with real data, a deployed ML model, and fraud analysts. During the
experiment, we gradually increased the information provided to the fraud
analysts in three stages: Data Only, i.e., just transaction data without access
to model score nor explanations, Data + ML Model Score, and Data + ML Model
Score + Explanations. Using strong statistical analysis, we show that, in
general, these popular explainers have a worse impact than desired. Some of the
conclusion highlights include: i) showing Data Only results in the highest
decision accuracy and the slowest decision time among all variants tested, ii)
all the explainers improve accuracy over the Data + ML Model Score variant but
still result in lower accuracy when compared with Data Only; iii) LIME was the
least preferred by users, probably due to its substantially lower variability
of explanations from case to case.
- Abstract(参考訳): 特定の特性を持つモデル説明を生成するために設計された新しい説明可能なAI(XAI)手法や、忠実性、堅牢性、人間解釈可能性などのデシダータを提案する研究がいくつかある。
しかし、意思決定タスクに対する実際の影響に基づいて説明が評価されることはめったにない。
この評価がなければ、mlモデル+エンドユーザの複合システム全体のパフォーマンスを損なうという説明が選択されるかも知れません。
本研究の目的は、エンドユーザーに対して異なるレベルの情報を提供する影響を分離するために、アプリケーションによる評価手法であるXAI Testを提案し、このギャップを埋めることである。
我々は,実データ,デプロイされたMLモデル,不正アナリストを用いて,実世界の不正検出タスクにおいて,LIME,SHAP,TreeInterpreterの3つの一般的なポストホック説明手法を評価する実験を行った。
データのみ、つまり、モデルスコアや説明へのアクセスのないトランザクションデータ、データ+MLモデルスコア、データ+MLモデルスコア+説明です。
強固な統計分析を用いて, 一般に, これらの一般的な説明者は, 所望よりも悪い影響を持つことを示した。
結論のハイライトは以下のとおりである。 i) データのみを最も高い決定精度と最も遅い決定時間で示し、i) すべての説明者はData + ML Model Scoreの変種よりも正確性を改善するが、それでもデータのみと比較して精度は低い;iii) LIMEはおそらく、ケースからケースへの説明の実質的な多様性のために、ユーザによって最も好まれていない。
関連論文リスト
- Discover, Explanation, Improvement: Automatic Slice Detection Framework
for Natural Language Processing [65.63380943075745]
「発見、説明、改善」フレームワークは、データポイントの一貫性と性能の低いグループを発見する。
我々のフレームワークは、エラーパターンを要約する情報的意味的特徴によって、エラーを起こしやすいデータポイントを正確に選択できる。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Information FOMO: The unhealthy fear of missing out on information. A
method for removing misleading data for healthier models [0.0]
本稿では,機械学習モデルを正確に学習するために必要なデータサイズを大幅に削減する手法を提案する。
本手法は,MLモデルを低次一般化特性に誤導するデータを無視・省略しながら,最も情報性の高いデータを抽出する。
特に、このメソッドは、データセットをトレーニング、テスト、バリデーションデータに分割する従来のニーズを自然に収束させ、取り除きます。
論文 参考訳(メタデータ) (2022-08-27T19:43:53Z) - PhilaeX: Explaining the Failure and Success of AI Models in Malware
Detection [6.264663726458324]
サイバーセキュリティにおける意思決定を支援するために使用されるAIモデルの予測に対する説明は、非常に重要である。
既存のAIモデルには、ほとんどのシナリオでパフォーマンスが強いにもかかわらず、予測結果に関する説明を提供する能力がない。
我々は、AIモデルの予測の完全な説明を形成するために、最適化された機能のサブセットを識別する手段を提供する、PhillaeXと呼ばれる新しい説明可能なAI手法を提案する。
論文 参考訳(メタデータ) (2022-07-02T05:06:24Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - Data Representing Ground-Truth Explanations to Evaluate XAI Methods [0.0]
現在、説明可能な人工知能(XAI)手法は、主に解釈可能な機械学習(IML)研究に由来するアプローチで評価されている。
本稿では,XAI手法の精度を評価するために用いられる正準方程式を用いた説明法を提案する。
論文 参考訳(メタデータ) (2020-11-18T16:54:53Z) - Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial
Explanations of Their Behavior in Natural Language? [86.60613602337246]
我々はNL説明を評価するためのリーク調整シミュラビリティ(LAS)指標を提案する。
LASは、どのように説明が直接アウトプットをリークするかを制御しながら、オブザーバがモデルのアウトプットを予測するのに役立つかを計測する。
マルチエージェントゲームとしての説明文生成を行い、ラベルリークをペナライズしながら、シミュラビリティの説明を最適化する。
論文 参考訳(メタデータ) (2020-10-08T16:59:07Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z) - Evaluating Explainable AI: Which Algorithmic Explanations Help Users
Predict Model Behavior? [97.77183117452235]
我々は、モデル解釈性に対するアルゴリズム的説明の影響を分離するために、人体テストを実施している。
方法の有効性の明確な証拠はごく少数にみえる。
以上の結果から,説明がシミュラビリティにどのように影響するかの信頼性と包括的評価が得られた。
論文 参考訳(メタデータ) (2020-05-04T20:35:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。