論文の概要: Does Explanation Correctness Matter? Linking Computational XAI Evaluation to Human Understanding
- arxiv url: http://arxiv.org/abs/2603.25251v1
- Date: Thu, 26 Mar 2026 09:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.226619
- Title: Does Explanation Correctness Matter? Linking Computational XAI Evaluation to Human Understanding
- Title(参考訳): 説明の正確性は重要か? 計算的XAI評価と人間の理解を結びつける
- Authors: Gregor Baer, Chao Zhang, Isel Grau, Pieter Van Gorp,
- Abstract要約: 高い正確性はより良い人間の理解をもたらすと仮定されるが、このリンクは制御されたレベルで実験的にテストされていない。
機能的正しさのすべての相違が、人間の理解の相違に結びつくわけではないことを示し、機能的指標を人的結果に対して検証する必要があることを強調する。
- 参考スコア(独自算出の注目度): 5.619746163828999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explainable AI (XAI) methods are commonly evaluated with functional metrics such as correctness, which computationally estimate how accurately an explanation reflects the model's reasoning. Higher correctness is assumed to produce better human understanding, but this link has not been tested experimentally with controlled levels. We conducted a user study (N=200) that manipulated explanation correctness at four levels (100%, 85%, 70%, 55%) in a time series classification task where participants could not rely on domain knowledge or visual intuition and instead predicted the AI's decisions based on explanations (forward simulation). Correctness affected understanding, but not at every level: performance dropped at 70% and 55% correctness relative to fully correct explanations, while further degradation below 70% produced no additional loss. Rather than shifting performance uniformly, lower correctness decreased the proportion of participants who learned the decision pattern. At the same time, even fully correct explanations did not guarantee understanding, as only a subset of participants achieved high accuracy. Exploratory analyses showed that self-reported ratings correlated with demonstrated performance only when explanations were fully correct and participants had learned the pattern. These findings show that not all differences in functional correctness translate to differences in human understanding, underscoring the need to validate functional metrics against human outcomes.
- Abstract(参考訳): 説明可能なAI(XAI)手法は、説明がモデルの推論をどれだけ正確に反映しているかを計算的に推定する、正確性などの機能的指標で一般的に評価される。
高い正確性はより良い人間の理解をもたらすと仮定されるが、このリンクは制御されたレベルで実験的にテストされていない。
我々は、参加者がドメイン知識や視覚的直観に依存しない時系列分類タスクにおいて、説明正当性を4レベル(100%、85%、70%、55%)で操作するユーザスタディ(N=200)を行い、その代わりに説明(フォワードシミュレーション)に基づいてAIの決定を予測した。
正確さは理解に影響を及ぼしたが、あらゆるレベルでは影響しなかった: パフォーマンスは、完全に正しい説明に対して70%と55%の正しさで低下し、さらに70%未満の劣化は、追加の損失を生じなかった。
均一にパフォーマンスを変えるのではなく、低い正しさは、決定パターンを学習した参加者の比率を低下させた。
同時に、完全に正しい説明でさえ、参加者のサブセットだけが高い精度を達成したため、理解を保証しなかった。
調査分析の結果,自己報告型評価は,説明が完全正し,参加者がパターンを学習した場合にのみ,評価結果と相関していた。
これらの結果から,機能的正当性のすべての違いが人間の理解の相違に結びつくわけではないことが示唆され,機能的指標の人的結果に対する検証の必要性が示唆された。
関連論文リスト
- Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models [108.26461635308796]
Rationale Consistencyは、モデルの推論プロセスと人間の判断のアライメントを定量化する、きめ細かい計量である。
我々のフロンティアモデルの評価では,最先端モデル間で合理的な一貫性が効果的に識別できることが示されている。
我々は、GenRMトレーニングの合理性一貫性と結果精度を組み合わせたハイブリッド信号を導入する。
論文 参考訳(メタデータ) (2026-02-04T15:24:52Z) - Can Consumer Chatbots Reason? A Student-Led Field Experiment Embedded in an "AI-for-All" Undergraduate Course [0.7515394929245942]
本稿では,ジョージ・メイソン大学のUNIV 182(AI4All)の中間プロジェクトとして,学生主導のフィールド実験を行った。
学生は、独自の推論タスクを設計し、現在使われている消費者チャットボット上で実行し、(i)回答の正しさと(ii)推論の有効性を評価した。
OpenAI GPT-5 と Claude 4.5 は最高平均解答精度 (86.2% と 83.8%) を獲得し、Grok 4 (82.5%) と Perplexity (73.1%) が続いた。
論文 参考訳(メタデータ) (2025-12-28T22:51:25Z) - A suite of LMs comprehend puzzle statements as well as humans [13.386647125288516]
本研究では,ヒトの反応を2つの条件で比較した事前登録研究を報告した。
リリーディングが制限されると、人間の精度は大幅に低下し、Falcon-180B-ChatやGPT-4よりも低下した。
結果は、モデル固有の欠陥よりも、実用的感受性の共有を示唆している。
論文 参考訳(メタデータ) (2025-05-13T22:18:51Z) - Predicting Satisfaction of Counterfactual Explanations from Human Ratings of Explanatory Qualities [0.873811641236639]
我々は,206人の被験者によって評価された反事実的説明のデータセットを分析した。
ユーザ満足度の最強予測要因として、実現可能性と信頼が際立っていることが分かりました。
他のメトリクスでは、分散の58%を説明し、追加の説明的品質の重要性を強調している。
論文 参考訳(メタデータ) (2025-04-07T11:09:25Z) - LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - Pre-training and Diagnosing Knowledge Base Completion Models [58.07183284468881]
我々は,事実の集合から他の集合への知識伝達へのアプローチを,エンティティや関係マッチングを必要とせずに導入し,分析する。
主な貢献は、構造化されていないテキストから収集された事実の大規模事前学習を利用する方法である。
得られた事前学習モデルをよりよく理解するために,オープン知識ベースコンプリートのための事前学習モデルの解析のための新しいデータセットを導入する。
論文 参考訳(メタデータ) (2024-01-27T15:20:43Z) - Don't Explain Noise: Robust Counterfactuals for Randomized Ensembles [50.81061839052459]
我々は確率論的問題として、堅牢な対実的説明の生成を定式化する。
アンサンブルモデルのロバスト性とベース学習者のロバスト性との関係を示す。
本手法は, 反実的説明から初期観測までの距離をわずかに増加させるだけで, 高いロバスト性を実現する。
論文 参考訳(メタデータ) (2022-05-27T17:28:54Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - SCOUT: Self-aware Discriminant Counterfactual Explanations [78.79534272979305]
対物的視覚的説明の問題点を考察する。
新しい差別的な説明の族が紹介される。
結果として生じる反実的な説明は、最適化が自由で、従って以前の方法よりもはるかに高速である。
論文 参考訳(メタデータ) (2020-04-16T17:05:49Z) - How human judgment impairs automated deception detection performance [0.5660207256468972]
教師付き機械学習と人間の判断を組み合わせることで、偽造検出精度が向上するかどうかを検証した。
ハイブリッドオーバールール決定による人間の関与は、精度をチャンスレベルに戻した。
人間の意思決定戦略は、真実の偏見(相手が真実を語る傾向)が有害な影響を説明できることを示唆している。
論文 参考訳(メタデータ) (2020-03-30T10:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。