論文の概要: Mean Opinion Score as a New Metric for User-Evaluation of XAI Methods
- arxiv url: http://arxiv.org/abs/2407.20427v1
- Date: Mon, 29 Jul 2024 21:38:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 18:48:44.355495
- Title: Mean Opinion Score as a New Metric for User-Evaluation of XAI Methods
- Title(参考訳): XAI手法のユーザ評価のための新しい指標としての平均オピニオンスコア
- Authors: Hyeon Yu, Jenny Benois-Pineau, Romain Bourqui, Romain Giot, Alexey Zhukov,
- Abstract要約: The Mean Opinion Score (MOS) is proposed as a user-centric evaluation metric for XAI explainers。
この新しいユーザ中心メトリックと自動メトリクスの相関について,Spearmanのランク相関係数を用いて検討した。
- 参考スコア(独自算出の注目度): 2.0272430076690027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the use of Mean Opinion Score (MOS), a common image quality metric, as a user-centric evaluation metric for XAI post-hoc explainers. To measure the MOS, a user experiment is proposed, which has been conducted with explanation maps of intentionally distorted images. Three methods from the family of feature attribution methods - Gradient-weighted Class Activation Mapping (Grad-CAM), Multi-Layered Feature Explanation Method (MLFEM), and Feature Explanation Method (FEM) - are compared with this metric. Additionally, the correlation of this new user-centric metric with automatic metrics is studied via Spearman's rank correlation coefficient. MOS of MLFEM shows the highest correlation with automatic metrics of Insertion Area Under Curve (IAUC) and Deletion Area Under Curve (DAUC). However, the overall correlations are limited, which highlights the lack of consensus between automatic and user-centric metrics.
- Abstract(参考訳): 本稿では,XAIポストホック説明器のユーザ中心評価指標として,画像品質基準である平均オピニオンスコア(MOS)を用いた。
MOSを測定するために,意図的に歪んだ画像の説明マップを用いてユーザ実験を行った。
重み付きクラス活性化マッピング(Grad-CAM)、MLFEM(Multi-Layered Feature Explanation Method)、FEM(Feature Explanation Method)の3つの手法を比較した。
さらに、この新たなユーザ中心メトリックと自動メトリクスの相関は、Spearmanのランク相関係数を用いて検討する。
MLFEMのMOSは、IAUC(Insertion Area Under Curve)とDAUC(Deletion Area Under Curve)の自動測定値と最も相関している。
しかし、全体的な相関は限られており、自動とユーザー中心のメトリクスのコンセンサスが欠如していることが浮き彫りになっている。
関連論文リスト
- Beyond correlation: The impact of human uncertainty in measuring the effectiveness of automatic evaluation and LLM-as-a-judge [51.93909886542317]
本稿では,人間の行動と自動評価方法の相違点を,単一の集合相関スコアが明らかにする方法について述べる。
本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化結果を提案する。
論文 参考訳(メタデータ) (2024-10-03T03:08:29Z) - Standing on the shoulders of giants [0.0]
アイテム応答理論(IRT)は、インスタンスの潜在特性のレベルの評価を可能にする。
IRTは従来のメトリクスを補完するものではなく、特定のインスタンスにおけるモデルの詳細な振る舞いを評価および観察する新しいレイヤを提供することによって、古典的なメトリクスを補完します。
論文 参考訳(メタデータ) (2024-09-05T00:58:07Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Unsupervised evaluation of GAN sample quality: Introducing the TTJac
Score [5.1359892878090845]
データフリーで個々の合成画像の忠実度を測定するために「TTJac score」を提案する。
FFHQ, AFHQ-Wild, LSUN-Cars, LSUN-Horseデータセット上でのStyleGAN 2およびStyleGAN 2 ADAモデルに適用した実験結果を示す。
論文 参考訳(メタデータ) (2023-08-31T19:55:50Z) - C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue
Evaluation [68.59356746305255]
本稿では,システムとユーザ間のターンレベルインタラクションを測定するための,モデルに依存しない新しいアプローチを提案する。
提案手法は,既存の評価システムと比較して,人間の判断との相関性を大幅に改善する。
論文 参考訳(メタデータ) (2023-06-27T06:58:03Z) - Evaluation of FEM and MLFEM AI-explainers in Image Classification tasks
with reference-based and no-reference metrics [0.0]
画像と映像の分類タスクにおけるCNNの説明のために設計された,最近提案されたポストホック説明器 FEM と MLFEM を思い出させる。
基準ベースおよび非参照メトリクスを用いて評価を行う。
非参照計量として、Alvarez-Melis と Jaakkola によって提案された「安定」計量を用いる。
論文 参考訳(メタデータ) (2022-12-02T14:55:31Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - Metrics for saliency map evaluation of deep learning explanation methods [0.0]
我々はPetsiukらによって提案された削除領域(DAUC)と挿入領域(IAUC)のメトリクスを批判的に分析する。
これらの指標はGrad-CAM や RISE といった一般的な手法によって生成されるサリエンシマップの忠実さを評価するために設計された。
本研究は,サリエンシマップによって与えられる実際のサリエンシスコア値が無視されることを示し,スコアのランキングのみを考慮した。
論文 参考訳(メタデータ) (2022-01-31T14:59:36Z) - Deep Relational Metric Learning [84.95793654872399]
本稿では,画像クラスタリングと検索のためのディープリレーショナルメトリック学習フレームワークを提案する。
我々は、クラス間分布とクラス内分布の両方をモデル化するために、異なる側面から画像を特徴付ける特徴のアンサンブルを学ぶ。
広く使われているCUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、我々のフレームワークが既存の深層学習方法を改善し、非常に競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-23T09:31:18Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。