論文の概要: How (Not) To Evaluate Explanation Quality
- arxiv url: http://arxiv.org/abs/2210.07126v1
- Date: Thu, 13 Oct 2022 16:06:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 14:30:30.843921
- Title: How (Not) To Evaluate Explanation Quality
- Title(参考訳): 説明の質を評価するには
- Authors: Hendrik Schuff, Heike Adel, Peng Qi, Ngoc Thang Vu
- Abstract要約: タスクやドメインにまたがって適用される説明品質の望ましい特性を定式化する。
本稿では,今日の説明品質評価を制限する障害を克服するための実用的なガイドラインを提案する。
- 参考スコア(独自算出の注目度): 29.40729766120284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The importance of explainability is increasingly acknowledged in natural
language processing. However, it is still unclear how the quality of
explanations can be assessed effectively. The predominant approach is to
compare proxy scores (such as BLEU or explanation F1) evaluated against gold
explanations in the dataset. The assumption is that an increase of the proxy
score implies a higher utility of explanations to users. In this paper, we
question this assumption. In particular, we (i) formulate desired
characteristics of explanation quality that apply across tasks and domains,
(ii) point out how current evaluation practices violate those characteristics,
and (iii) propose actionable guidelines to overcome obstacles that limit
today's evaluation of explanation quality and to enable the development of
explainable systems that provide tangible benefits for human users. We
substantiate our theoretical claims (i.e., the lack of validity and temporal
decline of currently-used proxy scores) with empirical evidence from a
crowdsourcing case study in which we investigate the explanation quality of
state-of-the-art explainable question answering systems.
- Abstract(参考訳): 自然言語処理において説明可能性の重要性はますます認識されている。
しかし、どのように説明の質を効果的に評価できるかは不明である。
主なアプローチは、データセットの金の説明に対して評価されるプロキシスコア(bleuや説明f1)を比較することである。
この仮定は、プロキシスコアの増加は、ユーザへの説明の利便性を高めることを意味する。
本稿では,この仮定に疑問を呈する。
特に私たちは
(i)タスクやドメインにまたがる説明品質の望ましい特性を定式化すること。
(ii)現在の評価慣行がこれらの特性にどのように違反しているかを指摘し、
(iii)今日の説明品質の評価を制限する障害を克服し、人間ユーザーに具体的利益をもたらす説明可能なシステムの開発を可能にするための実践可能なガイドラインを提案する。
クラウドソーシング・ケース・スタディ(crowdsourcing case study)から得られた実証的証拠を用いて,我々の理論的主張(有効性の欠如と現在使用されているプロキシスコアの時間的減少)を検証した。
関連論文リスト
- Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Explainability for Transparent Conversational Information-Seeking [13.790574266700006]
本研究は,反応を説明する様々な方法について考察する。
本研究は,説明タイプ,品質,提示モードの透過性を探索することにより,システム生成応答とユーザが検証可能な応答とのギャップを埋めることを目的とする。
論文 参考訳(メタデータ) (2024-05-06T09:25:14Z) - Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - On the stability, correctness and plausibility of visual explanation
methods based on feature importance [0.0]
画像分類器の特徴的重要性に基づいて, 説明の安定性, 正確性, 妥当性の相違について検討した。
これらの特性を評価するための既存の指標は必ずしも一致せず、説明のための優れた評価基準を構成するものの問題を提起する。
論文 参考訳(メタデータ) (2023-10-25T08:59:21Z) - Explaining Explainability: Towards Deeper Actionable Insights into Deep
Learning through Second-order Explainability [70.60433013657693]
2階説明可能なAI(SOXAI)は、最近インスタンスレベルからデータセットレベルまで説明可能なAI(XAI)を拡張するために提案されている。
そこで本研究では,SOXAIの動作可能な洞察に基づくトレーニングセットから無関係な概念を除外することで,モデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T23:24:01Z) - Explainability in Process Outcome Prediction: Guidelines to Obtain
Interpretable and Faithful Models [77.34726150561087]
本稿では、プロセス結果予測の分野における説明可能性モデルと説明可能性モデルの忠実性を通して、説明可能性を定義する。
本稿では,イベントログの仕様に基づいて適切なモデルを選択することのできる,X-MOPというガイドラインのセットを提案する。
論文 参考訳(メタデータ) (2022-03-30T05:59:50Z) - Diagnostics-Guided Explanation Generation [32.97930902104502]
説明は機械学習モデルの合理性に光を当て、推論プロセスにおける欠陥の特定に役立ちます。
文レベルの説明を生成するためにモデルを訓練する際、いくつかの診断特性を最適化する方法を示す。
論文 参考訳(メタデータ) (2021-09-08T16:27:52Z) - Prompting Contrastive Explanations for Commonsense Reasoning Tasks [74.7346558082693]
大規模事前学習言語モデル(PLM)は、常識推論タスクにおいて、ほぼ人間に近い性能を達成することができる。
人間の解釈可能な証拠を生成するために、同じモデルを使う方法を示す。
論文 参考訳(メタデータ) (2021-06-12T17:06:13Z) - Do Natural Language Explanations Represent Valid Logical Arguments?
Verifying Entailment in Explainable NLI Gold Standards [0.0]
説明可能なNLPの研究の新興ラインは、人間の注釈付き説明と合理性に富むデータセットの作成である。
人間の注釈付き説明は推論の根拠として使用されるが、それらの一貫性と厳密さの体系的な評価の欠如がある。
本論文では,ヒトの注釈付き説明の論理的妥当性を定量化するために,系統的アノテーション手法である説明関連検証(EEV)を提案する。
論文 参考訳(メタデータ) (2021-05-05T10:59:26Z) - Human Evaluation of Spoken vs. Visual Explanations for Open-Domain QA [22.76153284711981]
本研究は,ODQAシステムの回答をいつ受理するか,拒否するかをユーザが正確に判断するのに役立つかを検討する。
その結果,得られたエビデンスパスから得られた説明は,モダリティ間で強いベースライン(校正信頼度)を上回る可能性が示唆された。
我々は,現在の説明に共通する障害事例を示し,説明のエンドツーエンド評価を強調し,デプロイと異なるプロキシモダリティで評価することを警告する。
論文 参考訳(メタデータ) (2020-12-30T08:19:02Z) - Evaluations and Methods for Explanation through Robustness Analysis [117.7235152610957]
分析による特徴に基づく説明の新たな評価基準を確立する。
我々は、緩やかに必要であり、予測に十分である新しい説明を得る。
我々は、現在の予測をターゲットクラスに移動させる一連の特徴を抽出するために、説明を拡張します。
論文 参考訳(メタデータ) (2020-05-31T05:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。