論文の概要: Crowdsourcing Evaluation of Saliency-based XAI Methods
- arxiv url: http://arxiv.org/abs/2107.00456v1
- Date: Sun, 27 Jun 2021 17:37:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-03 06:47:12.768217
- Title: Crowdsourcing Evaluation of Saliency-based XAI Methods
- Title(参考訳): サイリエンシに基づくXAI手法のクラウドソーシングによる評価
- Authors: Xiaotian Lu, Arseny Tolmachev, Tatsuya Yamamoto, Koh Takeuchi, Seiji
Okajima, Tomoyoshi Takebayashi, Koji Maruhashi, Hisashi Kashima
- Abstract要約: 本稿では,クラウドソーシングによるXAI手法の評価手法を提案する。
我々の手法は人間の計算ゲーム「Peek-a-boom」にインスパイアされている。
自動評価と群集評価を併用した2つのデータセット上で,様々なXAI手法の精度マップを評価した。
- 参考スコア(独自算出の注目度): 18.18238526746074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the reasons behind the predictions made by deep neural networks
is critical for gaining human trust in many important applications, which is
reflected in the increasing demand for explainability in AI (XAI) in recent
years. Saliency-based feature attribution methods, which highlight important
parts of images that contribute to decisions by classifiers, are often used as
XAI methods, especially in the field of computer vision. In order to compare
various saliency-based XAI methods quantitatively, several approaches for
automated evaluation schemes have been proposed; however, there is no guarantee
that such automated evaluation metrics correctly evaluate explainability, and a
high rating by an automated evaluation scheme does not necessarily mean a high
explainability for humans. In this study, instead of the automated evaluation,
we propose a new human-based evaluation scheme using crowdsourcing to evaluate
XAI methods. Our method is inspired by a human computation game, "Peek-a-boom",
and can efficiently compare different XAI methods by exploiting the power of
crowds. We evaluate the saliency maps of various XAI methods on two datasets
with automated and crowd-based evaluation schemes. Our experiments show that
the result of our crowd-based evaluation scheme is different from those of
automated evaluation schemes. In addition, we regard the crowd-based evaluation
results as ground truths and provide a quantitative performance measure to
compare different automated evaluation schemes. We also discuss the impact of
crowd workers on the results and show that the varying ability of crowd workers
does not significantly impact the results.
- Abstract(参考訳): ディープニューラルネットワークによる予測の背後にある理由を理解することは、近年のAI(XAI)における説明可能性の増大に反映される多くの重要なアプリケーションにおいて、人間の信頼を得る上で重要である。
分類器による決定に寄与する画像の重要部分を強調した残差に基づく特徴属性法は、XAI法、特にコンピュータビジョンの分野でよく用いられる。
様々なサリエンシーに基づくxai手法を定量的に比較するために, 自動評価手法に対するいくつかのアプローチが提案されているが, 自動評価基準が説明可能性を正確に評価する保証はなく, 自動評価方式による評価が必ずしも人間の説明可能性が高いとは限らない。
本研究では, 自動評価の代わりに, クラウドソーシングによるXAI手法の評価手法を提案する。
本手法は,人間の計算ゲーム「peek-a-boom」に触発され,群集の力を生かして異なるxai手法を効率的に比較できる。
自動評価と群集評価を併用した2つのデータセットを対象とした各種XAI手法のサリエンシマップの評価を行った。
実験の結果, 自動評価方式とは, クラウドベース評価方式の結果が異なることがわかった。
さらに,群集による評価結果を基礎的事実とみなし,異なる自動評価方式を比較するための定量的評価指標を提供する。
また, 群集労働者が結果に与える影響についても検討し, 群集労働者の多様性が結果に有意な影響を及ぼさないことを示す。
関連論文リスト
- Navigating the Maze of Explainable AI: A Systematic Approach to Evaluating Methods and Metrics [10.045644410833402]
LATECは、20の異なる指標を用いて17の顕著なXAI手法を批判的に評価する大規模なベンチマークである。
信頼性の低いランキングに繋がるメトリクスの衝突リスクを実証し、その結果、より堅牢な評価手法を提案する。
LATECは将来のXAI研究における役割を強化し、326kのサリエンシマップと378kのメトリクススコアを(メタ評価)データセットとして公開している。
論文 参考訳(メタデータ) (2024-09-25T09:07:46Z) - How much informative is your XAI? A decision-making assessment task to
objectively measure the goodness of explanations [53.01494092422942]
XAIに対する個人化アプローチとユーザ中心アプローチの数は、近年急速に増加している。
ユーザ中心のXAIアプローチがユーザとシステム間のインタラクションに肯定的な影響を与えることが明らかとなった。
我々は,XAIシステムの良否を客観的かつ定量的に評価するための評価課題を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:49:39Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - An Experimental Investigation into the Evaluation of Explainability
Methods [60.54170260771932]
この研究は、9つの最先端XAI法と3つのダミー法(例えば、ランダム・サリエンシ・マップ)に適用された14の異なるメトリクスを比較した。
実験の結果、これらの指標のどれが高い相関関係を示し、潜在的な冗長性を示している。
論文 参考訳(メタデータ) (2023-05-25T08:07:07Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文 参考訳(メタデータ) (2022-05-20T20:50:17Z) - From Anecdotal Evidence to Quantitative Evaluation Methods: A Systematic
Review on Evaluating Explainable AI [3.7592122147132776]
我々は,説明の質を総合的に評価するために評価すべき,コンパクト性や正確性などの12の概念的特性を同定する。
その結果,3件中1件が逸話的証拠でのみ評価され,5件中1件がユーザで評価されていることがわかった。
この体系的な評価手法の収集は、研究者や実践者に、新しいXAI手法と既存のXAI手法を徹底的に検証、ベンチマーク、比較するための具体的なツールを提供する。
論文 参考訳(メタデータ) (2022-01-20T13:23:20Z) - Dynamic Human Evaluation for Relative Model Comparisons [8.843915018287476]
本研究では,相対的な比較設定で生成した出力を評価する際に,人間のアノテーションの必要個数を動的に測定する手法を提案する。
シミュレーションとクラウドソーシングのケーススタディにおいて,より優れたモデルを決定するための複数のラベル付け戦略と手法を評価するために,人間評価のエージェントベースフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-15T11:32:13Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Proxy Tasks and Subjective Measures Can Be Misleading in Evaluating
Explainable AI Systems [14.940404609343432]
我々は、XAIシステムを評価するための2つの現在一般的な手法を評価した。
その結果,プロキシタスクによる評価は,実際の意思決定タスクによる評価結果の予測には至らなかった。
我々の研究は、誤解を招く評価手法を採用することで、人間やAI単独よりも確実にパフォーマンスを発揮できる人間とAIチームの開発に向けた進歩が、必然的に鈍化している可能性があることを示唆している。
論文 参考訳(メタデータ) (2020-01-22T22:14:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。