論文の概要: Do Metrics for Counterfactual Explanations Align with User Perception?
- arxiv url: http://arxiv.org/abs/2603.15607v1
- Date: Mon, 16 Mar 2026 17:56:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.71964
- Title: Do Metrics for Counterfactual Explanations Align with User Perception?
- Title(参考訳): ユーザ認識に相応しい非現実的説明のメトリクスは存在するか?
- Authors: Felix Liedeker, Basil Ell, Philipp Cimiano, Christoph Düsing,
- Abstract要約: アルゴリズムによる評価指標と人間による説明品質判定を比較した。
その結果,アルゴリズムの指標と人間の評価の相関は一般的に弱く,データセットに依存していることがわかった。
提案手法は, 利用者が認識する説明品質の重要な側面を反映していないことが示唆された。
- 参考スコア(独自算出の注目度): 3.919854840656461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explainability is widely regarded as essential for trustworthy artificial intelligence systems. However, the metrics commonly used to evaluate counterfactual explanations are algorithmic evaluation metrics that are rarely validated against human judgments of explanation quality. This raises the question of whether such metrics meaningfully reflect user perceptions. We address this question through an empirical study that directly compares algorithmic evaluation metrics with human judgments across three datasets. Participants rated counterfactual explanations along multiple dimensions of perceived quality, which we relate to a comprehensive set of standard counterfactual metrics. We analyze both individual relationships and the extent to which combinations of metrics can predict human assessments. Our results show that correlations between algorithmic metrics and human ratings are generally weak and strongly dataset-dependent. Moreover, increasing the number of metrics used in predictive models does not lead to reliable improvements, indicating structural limitations in how current metrics capture criteria relevant for humans. Overall, our findings suggest that widely used counterfactual evaluation metrics fail to reflect key aspects of explanation quality as perceived by users, underscoring the need for more human-centered approaches to evaluating explainable artificial intelligence.
- Abstract(参考訳): 説明可能性は、信頼できる人工知能システムにとって不可欠であると考えられている。
しかし、カウンターファクトな説明を評価するのによく使われる指標はアルゴリズムによる評価指標であり、説明品質の人間の判断に対してほとんど検証されない。
これにより、そのようなメトリクスがユーザの認識を有意義に反映するかどうかという疑問が持ち上がる。
我々は,アルゴリズム評価指標と3つのデータセットの人間の判断を直接比較する実証的研究を通じて,この問題に対処する。
参加者は、認識された品質の複数の次元に沿って、反ファクト的説明を評価し、標準の反ファクト的メトリクスの包括的セットに関連付ける。
我々は、個人関係とメトリクスの組み合わせが人間の評価を予測できる範囲の両方を分析した。
その結果,アルゴリズムの指標と人間の評価の相関は一般的に弱く,データセットに依存していることがわかった。
さらに、予測モデルで使用されるメトリクスの数を増やすことは、信頼性の向上には至らず、現在のメトリクスが人間に関係のある基準をどう捉えるかという構造的な制限が示される。
全体としては、広く使われている対実評価指標は、ユーザーが認識する説明品質の重要な側面を反映せず、説明可能な人工知能を評価するためのより人間中心のアプローチの必要性を強調している。
関連論文リスト
- Evaluating the Evaluators: Metrics for Compositional Text-to-Image Generation [13.460909458745379]
本稿では,コンポジションテキスト画像評価に広く用いられている指標について検討する。
我々の分析は単純な相関を超越し、様々な構成課題にまたがってそれらの振る舞いを調べる。
結果は、1つのメトリクスがタスク間で一貫した実行をしないことを示している。
論文 参考訳(メタデータ) (2025-09-25T14:31:09Z) - The illusion of a perfect metric: Why evaluating AI's words is harder than it looks [0.0]
自然言語生成(NLG)は、AIの実用化に不可欠である。
人間の評価はデファクトスタンダードと考えられているが、高価でスケーラビリティに欠ける。
決定的な解として単一の計量が現れることはなく、結果として、完全に含意を考慮せずに異なる計量を用いた研究が行われる。
論文 参考訳(メタデータ) (2025-08-19T13:22:41Z) - Ranking evaluation metrics from a group-theoretic perspective [5.333192842860574]
一般的に使用される指標において、不整合評価や潜在的な不信の原因となる事例を示す。
分析では,不整合性評価を不信の原因とみなすべきではないことを強調し,評価指標のランク付けに光を当てた。
論文 参考訳(メタデータ) (2024-08-14T09:06:58Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Causal Fair Metric: Bridging Causality, Individual Fairness, and
Adversarial Robustness [7.246701762489971]
モデル内の脆弱性の特定や、類似した個人を公平に扱うことを目的とした個々の公正性に使用される対向的摂動は、どちらも同等の入力データインスタンスを生成するためのメトリクスに依存している。
このような共同メトリクスを定義する以前の試みは、データや構造因果モデルに関する一般的な仮定を欠くことが多く、反事実的近接を反映できなかった。
本稿では, 因果的属性と保護された因果的摂動を含む因果的構造に基づいて定式化された因果的公正度について紹介する。
論文 参考訳(メタデータ) (2023-10-30T09:53:42Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - OpenMEVA: A Benchmark for Evaluating Open-ended Story Generation Metrics [53.779709191191685]
オープンエンドのストーリー生成指標を評価するためのベンチマークであるOpenMEVAを提案する。
OpenMEVAは、メトリクスの能力を評価するための包括的なテストスイートを提供する。
既存の指標は人間の判断と相関が低く、談話レベルの不整合を認識できず、推論知識が欠如していることが観察された。
論文 参考訳(メタデータ) (2021-05-19T04:45:07Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。