Fugu-MT 論文翻訳(概要): How can I choose an explainer? An Application-grounded Evaluation of Post-hoc Explanations

論文の概要: How can I choose an explainer? An Application-grounded Evaluation of Post-hoc Explanations

arxiv url: http://arxiv.org/abs/2101.08758v2
Date: Fri, 22 Jan 2021 12:05:16 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-21 07:57:34.796612
Title: How can I choose an explainer? An Application-grounded Evaluation of Post-hoc Explanations
Title（参考訳）: どうやって説明者を選べる? ポストホック説明の応用的評価
Authors: S\'ergio Jesus, Catarina Bel\'em, Vladimir Balayan, Jo\~ao Bento, Pedro Saleiro, Pedro Bizarro, Jo\~ao Gama
Abstract要約: 説明は意思決定タスクに対する実際の影響に基づいて評価されることはめったにない。本研究は,エンドユーザーに対して異なるレベルの情報を提供することによる影響を分離するアプリケーショングラウンド評価手法であるXAI Testを提案する。強い統計的分析を用いて、一般的な説明者は、望まれるよりも悪い影響を持つことを示す。
参考スコア（独自算出の注目度）: 2.7708222692419735
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There have been several research works proposing new Explainable AI (XAI) methods designed to generate model explanations having specific properties, or desiderata, such as fidelity, robustness, or human-interpretability. However, explanations are seldom evaluated based on their true practical impact on decision-making tasks. Without that assessment, explanations might be chosen that, in fact, hurt the overall performance of the combined system of ML model + end-users. This study aims to bridge this gap by proposing XAI Test, an application-grounded evaluation methodology tailored to isolate the impact of providing the end-user with different levels of information. We conducted an experiment following XAI Test to evaluate three popular post-hoc explanation methods -- LIME, SHAP, and TreeInterpreter -- on a real-world fraud detection task, with real data, a deployed ML model, and fraud analysts. During the experiment, we gradually increased the information provided to the fraud analysts in three stages: Data Only, i.e., just transaction data without access to model score nor explanations, Data + ML Model Score, and Data + ML Model Score + Explanations. Using strong statistical analysis, we show that, in general, these popular explainers have a worse impact than desired. Some of the conclusion highlights include: i) showing Data Only results in the highest decision accuracy and the slowest decision time among all variants tested, ii) all the explainers improve accuracy over the Data + ML Model Score variant but still result in lower accuracy when compared with Data Only; iii) LIME was the least preferred by users, probably due to its substantially lower variability of explanations from case to case.
Abstract（参考訳）: 特定の特性を持つモデル説明を生成するために設計された新しい説明可能なAI(XAI)手法や、忠実性、堅牢性、人間解釈可能性などのデシダータを提案する研究がいくつかある。しかし、意思決定タスクに対する実際の影響に基づいて説明が評価されることはめったにない。この評価がなければ、mlモデル+エンドユーザの複合システム全体のパフォーマンスを損なうという説明が選択されるかも知れません。本研究の目的は、エンドユーザーに対して異なるレベルの情報を提供する影響を分離するために、アプリケーションによる評価手法であるXAI Testを提案し、このギャップを埋めることである。我々は,実データ,デプロイされたMLモデル,不正アナリストを用いて,実世界の不正検出タスクにおいて,LIME,SHAP,TreeInterpreterの3つの一般的なポストホック説明手法を評価する実験を行った。データのみ、つまり、モデルスコアや説明へのアクセスのないトランザクションデータ、データ+MLモデルスコア、データ+MLモデルスコア+説明です。強固な統計分析を用いて, 一般に, これらの一般的な説明者は, 所望よりも悪い影響を持つことを示した。結論のハイライトは以下のとおりである。 i) データのみを最も高い決定精度と最も遅い決定時間で示し、i) すべての説明者はData + ML Model Scoreの変種よりも正確性を改善するが、それでもデータのみと比較して精度は低い;iii) LIMEはおそらく、ケースからケースへの説明の実質的な多様性のために、ユーザによって最も好まれていない。

関連論文リスト

DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
Self-Rationalization in the Wild: A Large Scale Out-of-Distribution Evaluation on NLI-related tasks [59.47851630504264]
自由文の説明は表現力があり理解しやすいが、多くのデータセットには注釈付き説明データがない。我々は、T5-LargeモデルとOLMo-7Bモデルを微調整し、微調整データ品質、微調整サンプル数、少数ショット選択方法の影響を評価した。モデルは、自然言語推論(NLI)、ファクトチェック、抽象的な要約における幻覚検出の3つのタスクにまたがる19の多様なOODデータセットで評価される。
論文参考訳（メタデータ） (2025-02-07T10:01:32Z)
F-Fidelity: A Robust Framework for Faithfulness Evaluation of Explainable AI [15.314388210699443]
微調整フィデリティF-フィデリティはXAIの堅牢な評価フレームワークである。その結果, F-Fidelity は, 説明者の信頼度を回復する上で, 事前評価基準を著しく改善することを示した。また,F-Fidelityの指標を忠実に説明すれば,入力成分の空間性を計算することができることを示す。
論文参考訳（メタデータ） (2024-10-03T20:23:06Z)
Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文参考訳（メタデータ） (2024-09-03T11:09:44Z)
Using LLMs for Explaining Sets of Counterfactual Examples to Final Users [0.0]
自動意思決定シナリオでは、因果推論手法は基礎となるデータ生成プロセスを分析することができる。カウンターファクトな例では、最小限の要素が変更される仮説的なシナリオを探求する。本稿では,アクションの自然言語説明を生成するために,反事実を用いた新しい多段階パイプラインを提案する。
論文参考訳（メタデータ） (2024-08-27T15:13:06Z)
Explainability of Machine Learning Models under Missing Data [3.0485328005356136]
データ不足は、モデルのパフォーマンスと説明容易性を著しく損なうおそれのある問題である。本稿では、欠落データ分野の発展を要約し、SHAPに対する様々な計算方法の効果について考察する。
論文参考訳（メタデータ） (2024-06-29T11:31:09Z)
Analyzing the Influence of Training Samples on Explanations [5.695152528716705]
本稿では,与えられた説明に強い影響を与えるトレーニングデータサンプルを同定する新しい問題を提案する。そこで本研究では,そのような学習サンプルを同定するアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-05T07:20:06Z)
Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。 CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文参考訳（メタデータ） (2023-11-16T06:27:35Z)
Precise Benchmarking of Explainable AI Attribution Methods [0.0]
本稿では,最新のXAI属性手法のベンチマークのための新しい評価手法を提案する。提案手法は, 基礎的真理の説明を伴う合成分類モデルから成り立っている。実験の結果, Guided-Backprop 法と Smoothgrad XAI 法の性能に関する新たな知見が得られた。
論文参考訳（メタデータ） (2023-08-06T17:03:32Z)
Discover, Explanation, Improvement: An Automatic Slice Detection Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文参考訳（メタデータ） (2022-11-08T19:00:00Z)
PhilaeX: Explaining the Failure and Success of AI Models in Malware Detection [6.264663726458324]
サイバーセキュリティにおける意思決定を支援するために使用されるAIモデルの予測に対する説明は、非常に重要である。既存のAIモデルには、ほとんどのシナリオでパフォーマンスが強いにもかかわらず、予測結果に関する説明を提供する能力がない。我々は、AIモデルの予測の完全な説明を形成するために、最適化された機能のサブセットを識別する手段を提供する、PhillaeXと呼ばれる新しい説明可能なAI手法を提案する。
論文参考訳（メタデータ） (2022-07-02T05:06:24Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial Explanations of Their Behavior in Natural Language? [86.60613602337246]
我々はNL説明を評価するためのリーク調整シミュラビリティ(LAS)指標を提案する。 LASは、どのように説明が直接アウトプットをリークするかを制御しながら、オブザーバがモデルのアウトプットを予測するのに役立つかを計測する。マルチエージェントゲームとしての説明文生成を行い、ラベルリークをペナライズしながら、シミュラビリティの説明を最適化する。
論文参考訳（メタデータ） (2020-10-08T16:59:07Z)
Evaluating Explainable AI: Which Algorithmic Explanations Help Users Predict Model Behavior? [97.77183117452235]
我々は、モデル解釈性に対するアルゴリズム的説明の影響を分離するために、人体テストを実施している。方法の有効性の明確な証拠はごく少数にみえる。以上の結果から,説明がシミュラビリティにどのように影響するかの信頼性と包括的評価が得られた。
論文参考訳（メタデータ） (2020-05-04T20:35:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。