Fugu-MT 論文翻訳(概要): A Meta Survey of Quality Evaluation Criteria in Explanation Methods

論文の概要: A Meta Survey of Quality Evaluation Criteria in Explanation Methods

arxiv url: http://arxiv.org/abs/2203.13929v1
Date: Fri, 25 Mar 2022 22:24:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-29 14:45:53.531471
Title: A Meta Survey of Quality Evaluation Criteria in Explanation Methods
Title（参考訳）: 説明手法における品質評価基準のメタ調査
Authors: Helena L\"ofstr\"om, Karl Hammar, Ulf Johansson
Abstract要約: 説明可能な人工知能(XAI)において、説明方法とその評価が重要な問題となっている。最も正確なAIモデルは透明性と理解性の低い不透明であるため、バイアスの検出と不確実性の制御には説明が不可欠である。説明方法の品質を評価する際には、選択すべき基準が多々ある。
参考スコア（独自算出の注目度）: 0.5801044612920815
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Explanation methods and their evaluation have become a significant issue in explainable artificial intelligence (XAI) due to the recent surge of opaque AI models in decision support systems (DSS). Since the most accurate AI models are opaque with low transparency and comprehensibility, explanations are essential for bias detection and control of uncertainty. There are a plethora of criteria to choose from when evaluating explanation method quality. However, since existing criteria focus on evaluating single explanation methods, it is not obvious how to compare the quality of different methods. This lack of consensus creates a critical shortage of rigour in the field, although little is written about comparative evaluations of explanation methods. In this paper, we have conducted a semi-systematic meta-survey over fifteen literature surveys covering the evaluation of explainability to identify existing criteria usable for comparative evaluations of explanation methods. The main contribution in the paper is the suggestion to use appropriate trust as a criterion to measure the outcome of the subjective evaluation criteria and consequently make comparative evaluations possible. We also present a model of explanation quality aspects. In the model, criteria with similar definitions are grouped and related to three identified aspects of quality; model, explanation, and user. We also notice four commonly accepted criteria (groups) in the literature, covering all aspects of explanation quality: Performance, appropriate trust, explanation satisfaction, and fidelity. We suggest the model be used as a chart for comparative evaluations to create more generalisable research in explanation quality.
Abstract（参考訳）: 意思決定支援システム(DSS)における不透明なAIモデルの増加により、説明可能な人工知能(XAI)において、説明方法とその評価が重要な問題となっている。最も正確なaiモデルは透明性と理解性が低い不透明であるため、バイアス検出と不確実性の制御には説明が不可欠である。説明方法の品質を評価する際に選択すべき基準はたくさんあります。しかし,既存の基準は単一説明法の評価に重点を置いているため,異なる手法の質を比較する方法が明確ではない。この合意の欠如はこの分野における厳密さの重大な不足を生み出しているが、説明法の比較評価についてはほとんど書かれていない。本稿では,説明方法の比較評価に使用可能な既存の基準を識別するための説明可能性の評価を対象とする,半体系的メタサーベイを15以上の文献調査で実施した。本論文の主な貢献は、主観評価基準の結果を測定する基準として適切な信頼を活用し、その結果、比較評価を可能にすることにある。また,説明品質の側面のモデルも提示する。モデルでは、類似した定義を持つ基準は、モデル、説明、ユーザという3つの品質の側面にグループ化され、関連する。また,説明品質のすべての面をカバーする4つの一般的な基準 (グループ) が文献に含まれていることにも気付きました。本モデルは, 比較評価のためのチャートとして用いることで, 説明品質に関するより一般的な研究を創出することを提案する。

関連論文リスト

Evaluating Explainability: A Framework for Systematic Assessment and Reporting of Explainable AI Features [2.4458403938995064]
説明可能なAI機能の評価と報告を行うフレームワークを提案する。評価の枠組みは,(1)類似した入力に対する説明のばらつきの定量化,2)説明が真実にどの程度近いかの定式化,3)説明とモデル内部機構の整合性の評価,4)タスク性能への影響評価の4つの基準に基づく。
論文参考訳（メタデータ） (2025-06-16T18:51:46Z)
Multi-criteria Rank-based Aggregation for Explainable AI [0.24578723416255746]
本稿では,複数の品質指標を同時にバランスさせて説明モデルのアンサンブルを生成する,複数基準のランクに基づく重み付け集約手法を提案する。公開されているデータセットの実験は、これらのメトリクスにわたって提案されたモデルの堅牢性を示している。
論文参考訳（メタデータ） (2025-05-30T14:02:59Z)
CritiQ: Mining Data Quality Criteria from Human Preferences [70.35346554179036]
人間の嗜好からデータ品質の基準を自動的にマイニングする新しいデータ選択手法であるCritiQを紹介する。 CritiQ Flowはマネージャエージェントを使用して品質基準を進化させ、ワーカーエージェントはペアで判断する。コード,数学,論理領域において,本手法の有効性を実証する。
論文参考訳（メタデータ） (2025-02-26T16:33:41Z)
Evaluate with the Inverse: Efficient Approximation of Latent Explanation Quality Distribution [3.0658381192498907]
こうした説明の質を測る手段としては、XAIの実践者が頼りにしている。伝統的に、説明の質はランダムに生成されたものと比較することで評価されてきた。本稿では,QGE(Quality Gap Estimate)という代替手法を紹介する。
論文参考訳（メタデータ） (2025-02-21T12:04:01Z)
BEExAI: Benchmark to Evaluate Explainable AI [0.9176056742068812]
本稿では,ポストホックXAI手法の大規模比較を可能にするベンチマークツールであるBEExAIを提案する。説明の質と正確性を測定するための信頼性の高い方法の必要性が重要になっていると論じる。
論文参考訳（メタデータ） (2024-07-29T11:21:17Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
Towards a Unified Framework for Evaluating Explanations [0.6138671548064356]
我々は、モデルと利害関係者の間の仲介者として、本質的に解釈可能なモデルであれ、不透明なブラックボックスモデルであれ、説明が役立ちます。本稿では,学習者の行動を予測するための解釈可能なニューラルネットワークの例を用いて,これらの基準と具体的な評価手法について述べる。
論文参考訳（メタデータ） (2024-05-22T21:49:28Z)
Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attribution Methods [49.62131719441252]
属性法は入力特徴の重要度を計算し、深層モデルの出力予測を説明する。本研究はまず,属性手法の信頼性ベンチマークが満たすであろう信頼度基準の集合を同定する。次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
論文参考訳（メタデータ） (2024-05-02T13:48:37Z)
The Meta-Evaluation Problem in Explainable AI: Identifying Reliable Estimators with MetaQuantus [10.135749005469686]
説明可能なAI(XAI)分野における未解決課題の1つは、説明方法の品質を最も確実に見積もる方法を決定することである。我々は、XAIの異なる品質推定器のメタ評価を通じてこの問題に対処する。我々の新しいフレームワークMetaQuantusは、品質推定器の2つの相補的な性能特性を解析する。
論文参考訳（メタデータ） (2023-02-14T18:59:02Z)
From Anecdotal Evidence to Quantitative Evaluation Methods: A Systematic Review on Evaluating Explainable AI [3.7592122147132776]
我々は,説明の質を総合的に評価するために評価すべき,コンパクト性や正確性などの12の概念的特性を同定する。その結果,3件中1件が逸話的証拠でのみ評価され,5件中1件がユーザで評価されていることがわかった。この体系的な評価手法の収集は、研究者や実践者に、新しいXAI手法と既存のXAI手法を徹底的に検証、ベンチマーク、比較するための具体的なツールを提供する。
論文参考訳（メタデータ） (2022-01-20T13:23:20Z)
Image Quality Assessment in the Modern Age [53.19271326110551]
本チュートリアルは、画像品質評価(IQA)の基礎的理論、方法論、現状の進歩を聴衆に提供する。まず,視覚刺激を適切に選択する方法に着目し,主観的品質評価手法を再考する。手書きのエンジニアリングと(深い)学習ベースの手法の両方をカバーします。
論文参考訳（メタデータ） (2021-10-19T02:38:46Z)
When Stability meets Sufficiency: Informative Explanations that do not Overwhelm [15.897648942908747]
入力の分類を正当化するためには、何が最小限に必要かを強調する特徴に基づく属性法を考える。最小限の充足性は理解性に類似した魅力的な性質であるが、結果として生じる説明は、人間がモデルの局所的な振る舞いを理解して評価するには不十分であることが多い。本稿では,与えられた入力に対して,安定かつ十分な説明のシーケンスを出力するPSEM(Path-Sufficient Explanations Method)を提案する。
論文参考訳（メタデータ） (2021-09-13T16:06:10Z)
GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。 10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文参考訳（メタデータ） (2020-10-24T08:30:20Z)
Towards Question-Answering as an Automatic Metric for Evaluating the Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文参考訳（メタデータ） (2020-10-01T15:33:09Z)
Evaluations and Methods for Explanation through Robustness Analysis [117.7235152610957]
分析による特徴に基づく説明の新たな評価基準を確立する。我々は、緩やかに必要であり、予測に十分である新しい説明を得る。我々は、現在の予測をターゲットクラスに移動させる一連の特徴を抽出するために、説明を拡張します。
論文参考訳（メタデータ） (2020-05-31T05:52:05Z)
A Framework for Evaluation of Machine Reading Comprehension Gold Standards [7.6250852763032375]
本稿では,現在の言語的特徴,必要な推論,背景知識,事実的正当性を調査するための統一的な枠組みを提案する。語彙的曖昧さに寄与する特徴の欠如、期待される回答の様々な事実的正しさ、および語彙的手がかりの存在は、いずれも、評価データの読解の複雑さと品質を低下させる可能性がある。
論文参考訳（メタデータ） (2020-03-10T11:30:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。