論文の概要: A Meta Survey of Quality Evaluation Criteria in Explanation Methods
- arxiv url: http://arxiv.org/abs/2203.13929v1
- Date: Fri, 25 Mar 2022 22:24:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 14:45:53.531471
- Title: A Meta Survey of Quality Evaluation Criteria in Explanation Methods
- Title(参考訳): 説明手法における品質評価基準のメタ調査
- Authors: Helena L\"ofstr\"om, Karl Hammar, Ulf Johansson
- Abstract要約: 説明可能な人工知能(XAI)において、説明方法とその評価が重要な問題となっている。
最も正確なAIモデルは透明性と理解性の低い不透明であるため、バイアスの検出と不確実性の制御には説明が不可欠である。
説明方法の品質を評価する際には、選択すべき基準が多々ある。
- 参考スコア(独自算出の注目度): 0.5801044612920815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explanation methods and their evaluation have become a significant issue in
explainable artificial intelligence (XAI) due to the recent surge of opaque AI
models in decision support systems (DSS). Since the most accurate AI models are
opaque with low transparency and comprehensibility, explanations are essential
for bias detection and control of uncertainty. There are a plethora of criteria
to choose from when evaluating explanation method quality. However, since
existing criteria focus on evaluating single explanation methods, it is not
obvious how to compare the quality of different methods. This lack of consensus
creates a critical shortage of rigour in the field, although little is written
about comparative evaluations of explanation methods. In this paper, we have
conducted a semi-systematic meta-survey over fifteen literature surveys
covering the evaluation of explainability to identify existing criteria usable
for comparative evaluations of explanation methods. The main contribution in
the paper is the suggestion to use appropriate trust as a criterion to measure
the outcome of the subjective evaluation criteria and consequently make
comparative evaluations possible. We also present a model of explanation
quality aspects. In the model, criteria with similar definitions are grouped
and related to three identified aspects of quality; model, explanation, and
user. We also notice four commonly accepted criteria (groups) in the
literature, covering all aspects of explanation quality: Performance,
appropriate trust, explanation satisfaction, and fidelity. We suggest the model
be used as a chart for comparative evaluations to create more generalisable
research in explanation quality.
- Abstract(参考訳): 意思決定支援システム(DSS)における不透明なAIモデルの増加により、説明可能な人工知能(XAI)において、説明方法とその評価が重要な問題となっている。
最も正確なaiモデルは透明性と理解性が低い不透明であるため、バイアス検出と不確実性の制御には説明が不可欠である。
説明方法の品質を評価する際に選択すべき基準はたくさんあります。
しかし,既存の基準は単一説明法の評価に重点を置いているため,異なる手法の質を比較する方法が明確ではない。
この合意の欠如はこの分野における厳密さの重大な不足を生み出しているが、説明法の比較評価についてはほとんど書かれていない。
本稿では,説明方法の比較評価に使用可能な既存の基準を識別するための説明可能性の評価を対象とする,半体系的メタサーベイを15以上の文献調査で実施した。
本論文の主な貢献は、主観評価基準の結果を測定する基準として適切な信頼を活用し、その結果、比較評価を可能にすることにある。
また,説明品質の側面のモデルも提示する。
モデルでは、類似した定義を持つ基準は、モデル、説明、ユーザという3つの品質の側面にグループ化され、関連する。
また,説明品質のすべての面をカバーする4つの一般的な基準 (グループ) が文献に含まれていることにも気付きました。
本モデルは, 比較評価のためのチャートとして用いることで, 説明品質に関するより一般的な研究を創出することを提案する。
関連論文リスト
- On the stability, correctness and plausibility of visual explanation
methods based on feature importance [0.0]
画像分類器の特徴的重要性に基づいて, 説明の安定性, 正確性, 妥当性の相違について検討した。
これらの特性を評価するための既存の指標は必ずしも一致せず、説明のための優れた評価基準を構成するものの問題を提起する。
論文 参考訳(メタデータ) (2023-10-25T08:59:21Z) - SocREval: Large Language Models with the Socratic Method for
Reference-Free Reasoning Evaluation [87.92401904152179]
既存の基準に基づく評価指標は、モデル由来の連鎖を評価するために人間の注釈付き推論チェーンに依存している。
我々は,人為的参照の必要性を回避し,推論チェーンの品質を自動評価するGPT-4を提案する。
SocREval は GPT-4 の性能を大幅に改善し,既存の参照フリーおよび参照ベース推論評価指標を抜いた。
論文 参考訳(メタデータ) (2023-09-29T18:25:46Z) - The Meta-Evaluation Problem in Explainable AI: Identifying Reliable
Estimators with MetaQuantus [10.135749005469686]
説明可能なAI(XAI)分野における未解決課題の1つは、説明方法の品質を最も確実に見積もる方法を決定することである。
我々は、XAIの異なる品質推定器のメタ評価を通じてこの問題に対処する。
我々の新しいフレームワークMetaQuantusは、品質推定器の2つの相補的な性能特性を解析する。
論文 参考訳(メタデータ) (2023-02-14T18:59:02Z) - REVEL Framework to measure Local Linear Explanations for black-box
models: Deep Learning Image Classification case of study [12.49538398746092]
本稿では,理論的コヒーレントな発展を伴う説明の質に関する諸側面を評価するためのREVELと呼ばれる手法を提案する。
実験は,REVELの記述的および解析的パワーを示すベンチマークとして,画像4つのデータセットを用いて実施されている。
論文 参考訳(メタデータ) (2022-11-11T12:15:36Z) - From Anecdotal Evidence to Quantitative Evaluation Methods: A Systematic
Review on Evaluating Explainable AI [3.7592122147132776]
我々は,説明の質を総合的に評価するために評価すべき,コンパクト性や正確性などの12の概念的特性を同定する。
その結果,3件中1件が逸話的証拠でのみ評価され,5件中1件がユーザで評価されていることがわかった。
この体系的な評価手法の収集は、研究者や実践者に、新しいXAI手法と既存のXAI手法を徹底的に検証、ベンチマーク、比較するための具体的なツールを提供する。
論文 参考訳(メタデータ) (2022-01-20T13:23:20Z) - Image Quality Assessment in the Modern Age [53.19271326110551]
本チュートリアルは、画像品質評価(IQA)の基礎的理論、方法論、現状の進歩を聴衆に提供する。
まず,視覚刺激を適切に選択する方法に着目し,主観的品質評価手法を再考する。
手書きのエンジニアリングと(深い)学習ベースの手法の両方をカバーします。
論文 参考訳(メタデータ) (2021-10-19T02:38:46Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z) - Evaluations and Methods for Explanation through Robustness Analysis [117.7235152610957]
分析による特徴に基づく説明の新たな評価基準を確立する。
我々は、緩やかに必要であり、予測に十分である新しい説明を得る。
我々は、現在の予測をターゲットクラスに移動させる一連の特徴を抽出するために、説明を拡張します。
論文 参考訳(メタデータ) (2020-05-31T05:52:05Z) - A Framework for Evaluation of Machine Reading Comprehension Gold
Standards [7.6250852763032375]
本稿では,現在の言語的特徴,必要な推論,背景知識,事実的正当性を調査するための統一的な枠組みを提案する。
語彙的曖昧さに寄与する特徴の欠如、期待される回答の様々な事実的正しさ、および語彙的手がかりの存在は、いずれも、評価データの読解の複雑さと品質を低下させる可能性がある。
論文 参考訳(メタデータ) (2020-03-10T11:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。