論文の概要: Quantitative Evaluations on Saliency Methods: An Experimental Study
- arxiv url: http://arxiv.org/abs/2012.15616v1
- Date: Thu, 31 Dec 2020 14:13:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:24:09.227213
- Title: Quantitative Evaluations on Saliency Methods: An Experimental Study
- Title(参考訳): 塩分法に関する定量的評価--実験的検討
- Authors: Xiao-Hui Li, Yuhan Shi, Haoyang Li, Wei Bai, Yuanwei Song, Caleb Chen
Cao, Lei Chen
- Abstract要約: 我々は, 忠実性, 局在性, 偽陽性, 感度チェック, 安定性など, 指標の現状を簡単に要約する。
比較したすべての手法の中で、すべての指標において1つの説明法が他を圧倒することはないと結論づける。
- 参考スコア(独自算出の注目度): 6.290238942982972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been long debated that eXplainable AI (XAI) is an important topic, but
it lacks rigorous definition and fair metrics. In this paper, we briefly
summarize the status quo of the metrics, along with an exhaustive experimental
study based on them, including faithfulness, localization, false-positives,
sensitivity check, and stability. With the experimental results, we conclude
that among all the methods we compare, no single explanation method dominates
others in all metrics. Nonetheless, Gradient-weighted Class Activation Mapping
(Grad-CAM) and Randomly Input Sampling for Explanation (RISE) perform fairly
well in most of the metrics. Utilizing a set of filtered metrics, we further
present a case study to diagnose the classification bases for models. While
providing a comprehensive experimental study of metrics, we also examine
measuring factors that are missed in current metrics and hope this valuable
work could serve as a guide for future research.
- Abstract(参考訳): eXplainable AI(XAI)が重要なトピックであると長年議論されてきたが、厳密な定義と公正なメトリクスは欠如している。
本稿では,測定値の現況を簡潔に要約するとともに,忠実性,局在性,偽陽性,感度チェック,安定性などに基づく徹底的な実験を行った。
実験の結果, 比較した手法の中で, 一つの説明法が他を圧倒することはない, と結論づけた。
それでも、Grad-CAM(Grad-CAM)とRISE(Randomly Input Smpling for Explanation)は、ほとんどのメトリクスでかなりよく機能します。
さらに,一組のフィルタメトリクスを用いて,モデルの分類基準を診断するケーススタディを提案する。
メトリクスに関する総合的な実験的研究を提供する一方で、現在のメトリクスで欠落している要因を測定し、この貴重な研究が将来の研究のガイドになることを期待している。
関連論文リスト
- Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - A Closer Look at Classification Evaluation Metrics and a Critical Reflection of Common Evaluation Practice [6.091702876917282]
分類システムは数え切れないほど多くの論文で評価されている。
しかし,評価の実践がしばしば誤りであることがわかった。
多くの研究は、いわゆる「マクロ」メトリクスを使ってシステムをランク付けするが、そのようなメトリクスから何を期待するかを明確には示していない。
論文 参考訳(メタデータ) (2024-04-25T18:12:43Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Faithful Model Evaluation for Model-Based Metrics [22.753929098534403]
モデルに基づくメトリクスの重要度テストの数学的基礎を確立する。
モデルに基づく測定値のサンプル分散を計算するために, 計量モデル誤差を考慮すると, 特定の実験における結論が変化することを示す。
論文 参考訳(メタデータ) (2023-12-19T19:41:33Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - An Experimental Investigation into the Evaluation of Explainability
Methods [60.54170260771932]
この研究は、9つの最先端XAI法と3つのダミー法(例えば、ランダム・サリエンシ・マップ)に適用された14の異なるメトリクスを比較した。
実験の結果、これらの指標のどれが高い相関関係を示し、潜在的な冗長性を示している。
論文 参考訳(メタデータ) (2023-05-25T08:07:07Z) - On the Intrinsic and Extrinsic Fairness Evaluation Metrics for
Contextualized Language Representations [74.70957445600936]
様々な自然言語処理タスクの公平度を測定するために、複数のメトリクスが導入された。
これらの指標は,(1)下流アプリケーションにおけるフェアネスを評価する遠因性指標と,(2)上流言語表現モデルにおけるフェアネスを推定する遠因性指標の2つのカテゴリに大別することができる。
論文 参考訳(メタデータ) (2022-03-25T22:17:43Z) - Evaluating Metrics for Bias in Word Embeddings [44.14639209617701]
我々は、過去の研究の考えに基づいてバイアス定義を定式化し、バイアスメトリクスの条件を導出する。
そこで我々は,既存のメトリクスの欠点に対処する新しい計量であるhetを提案し,その振る舞いを数学的に証明する。
論文 参考訳(メタデータ) (2021-11-15T16:07:15Z) - Measuring Disentanglement: A Review of Metrics [2.959278299317192]
データの変動要因を解き放つことを学ぶことは、AIにとって重要な問題です。
我々は,すべての指標を介入型,予測型,情報型という3つの家系に分類する新しい分類法を提案する。
幅広い実験を行い、表現特性を分離し、様々な側面におけるすべてのメトリクスを比較する。
論文 参考訳(メタデータ) (2020-12-16T21:28:25Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。