論文の概要: A Meta Survey of Quality Evaluation Criteria in Explanation Methods
- arxiv url: http://arxiv.org/abs/2203.13929v1
- Date: Fri, 25 Mar 2022 22:24:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 14:45:53.531471
- Title: A Meta Survey of Quality Evaluation Criteria in Explanation Methods
- Title(参考訳): 説明手法における品質評価基準のメタ調査
- Authors: Helena L\"ofstr\"om, Karl Hammar, Ulf Johansson
- Abstract要約: 説明可能な人工知能(XAI)において、説明方法とその評価が重要な問題となっている。
最も正確なAIモデルは透明性と理解性の低い不透明であるため、バイアスの検出と不確実性の制御には説明が不可欠である。
説明方法の品質を評価する際には、選択すべき基準が多々ある。
- 参考スコア(独自算出の注目度): 0.5801044612920815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explanation methods and their evaluation have become a significant issue in
explainable artificial intelligence (XAI) due to the recent surge of opaque AI
models in decision support systems (DSS). Since the most accurate AI models are
opaque with low transparency and comprehensibility, explanations are essential
for bias detection and control of uncertainty. There are a plethora of criteria
to choose from when evaluating explanation method quality. However, since
existing criteria focus on evaluating single explanation methods, it is not
obvious how to compare the quality of different methods. This lack of consensus
creates a critical shortage of rigour in the field, although little is written
about comparative evaluations of explanation methods. In this paper, we have
conducted a semi-systematic meta-survey over fifteen literature surveys
covering the evaluation of explainability to identify existing criteria usable
for comparative evaluations of explanation methods. The main contribution in
the paper is the suggestion to use appropriate trust as a criterion to measure
the outcome of the subjective evaluation criteria and consequently make
comparative evaluations possible. We also present a model of explanation
quality aspects. In the model, criteria with similar definitions are grouped
and related to three identified aspects of quality; model, explanation, and
user. We also notice four commonly accepted criteria (groups) in the
literature, covering all aspects of explanation quality: Performance,
appropriate trust, explanation satisfaction, and fidelity. We suggest the model
be used as a chart for comparative evaluations to create more generalisable
research in explanation quality.
- Abstract(参考訳): 意思決定支援システム(DSS)における不透明なAIモデルの増加により、説明可能な人工知能(XAI)において、説明方法とその評価が重要な問題となっている。
最も正確なaiモデルは透明性と理解性が低い不透明であるため、バイアス検出と不確実性の制御には説明が不可欠である。
説明方法の品質を評価する際に選択すべき基準はたくさんあります。
しかし,既存の基準は単一説明法の評価に重点を置いているため,異なる手法の質を比較する方法が明確ではない。
この合意の欠如はこの分野における厳密さの重大な不足を生み出しているが、説明法の比較評価についてはほとんど書かれていない。
本稿では,説明方法の比較評価に使用可能な既存の基準を識別するための説明可能性の評価を対象とする,半体系的メタサーベイを15以上の文献調査で実施した。
本論文の主な貢献は、主観評価基準の結果を測定する基準として適切な信頼を活用し、その結果、比較評価を可能にすることにある。
また,説明品質の側面のモデルも提示する。
モデルでは、類似した定義を持つ基準は、モデル、説明、ユーザという3つの品質の側面にグループ化され、関連する。
また,説明品質のすべての面をカバーする4つの一般的な基準 (グループ) が文献に含まれていることにも気付きました。
本モデルは, 比較評価のためのチャートとして用いることで, 説明品質に関するより一般的な研究を創出することを提案する。
関連論文リスト
- BEExAI: Benchmark to Evaluate Explainable AI [0.9176056742068812]
本稿では,ポストホックXAI手法の大規模比較を可能にするベンチマークツールであるBEExAIを提案する。
説明の質と正確性を測定するための信頼性の高い方法の必要性が重要になっていると論じる。
論文 参考訳(メタデータ) (2024-07-29T11:21:17Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Towards a Unified Framework for Evaluating Explanations [0.6138671548064356]
我々は、モデルと利害関係者の間の仲介者として、本質的に解釈可能なモデルであれ、不透明なブラックボックスモデルであれ、説明が役立ちます。
本稿では,学習者の行動を予測するための解釈可能なニューラルネットワークの例を用いて,これらの基準と具体的な評価手法について述べる。
論文 参考訳(メタデータ) (2024-05-22T21:49:28Z) - Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attribution Methods [49.62131719441252]
属性法は入力特徴の重要度を計算し、深層モデルの出力予測を説明する。
本研究はまず,属性手法の信頼性ベンチマークが満たすであろう信頼度基準の集合を同定する。
次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
論文 参考訳(メタデータ) (2024-05-02T13:48:37Z) - The Meta-Evaluation Problem in Explainable AI: Identifying Reliable
Estimators with MetaQuantus [10.135749005469686]
説明可能なAI(XAI)分野における未解決課題の1つは、説明方法の品質を最も確実に見積もる方法を決定することである。
我々は、XAIの異なる品質推定器のメタ評価を通じてこの問題に対処する。
我々の新しいフレームワークMetaQuantusは、品質推定器の2つの相補的な性能特性を解析する。
論文 参考訳(メタデータ) (2023-02-14T18:59:02Z) - From Anecdotal Evidence to Quantitative Evaluation Methods: A Systematic
Review on Evaluating Explainable AI [3.7592122147132776]
我々は,説明の質を総合的に評価するために評価すべき,コンパクト性や正確性などの12の概念的特性を同定する。
その結果,3件中1件が逸話的証拠でのみ評価され,5件中1件がユーザで評価されていることがわかった。
この体系的な評価手法の収集は、研究者や実践者に、新しいXAI手法と既存のXAI手法を徹底的に検証、ベンチマーク、比較するための具体的なツールを提供する。
論文 参考訳(メタデータ) (2022-01-20T13:23:20Z) - Image Quality Assessment in the Modern Age [53.19271326110551]
本チュートリアルは、画像品質評価(IQA)の基礎的理論、方法論、現状の進歩を聴衆に提供する。
まず,視覚刺激を適切に選択する方法に着目し,主観的品質評価手法を再考する。
手書きのエンジニアリングと(深い)学習ベースの手法の両方をカバーします。
論文 参考訳(メタデータ) (2021-10-19T02:38:46Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z) - Evaluations and Methods for Explanation through Robustness Analysis [117.7235152610957]
分析による特徴に基づく説明の新たな評価基準を確立する。
我々は、緩やかに必要であり、予測に十分である新しい説明を得る。
我々は、現在の予測をターゲットクラスに移動させる一連の特徴を抽出するために、説明を拡張します。
論文 参考訳(メタデータ) (2020-05-31T05:52:05Z) - A Framework for Evaluation of Machine Reading Comprehension Gold
Standards [7.6250852763032375]
本稿では,現在の言語的特徴,必要な推論,背景知識,事実的正当性を調査するための統一的な枠組みを提案する。
語彙的曖昧さに寄与する特徴の欠如、期待される回答の様々な事実的正しさ、および語彙的手がかりの存在は、いずれも、評価データの読解の複雑さと品質を低下させる可能性がある。
論文 参考訳(メタデータ) (2020-03-10T11:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。