論文の概要: A Unified Study of Machine Learning Explanation Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2203.14265v1
- Date: Sun, 27 Mar 2022 10:12:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 16:03:50.497056
- Title: A Unified Study of Machine Learning Explanation Evaluation Metrics
- Title(参考訳): 機械学習説明評価尺度の統一化に関する研究
- Authors: Yipei Wang, Xiaoqian Wang
- Abstract要約: 説明のための既存の指標の多くは,提案手法の副産物として研究者によって導入され,それらの手法の利点を実証している。
確認および正当化されたメトリクスの欠如は、これらの説明方法のベンチマークにおいてカオスをもたらすと我々は主張する。
本稿では、機械学習の説明評価における問題への対処に関するガイドラインを提案し、説明手法やメトリクスを開発する際に、研究者が慎重にこれらの問題に対処するよう促す。
- 参考スコア(独自算出の注目度): 16.4602888153369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing need for trustworthy machine learning has led to the blossom of
interpretability research. Numerous explanation methods have been developed to
serve this purpose. However, these methods are deficiently and inappropriately
evaluated. Many existing metrics for explanations are introduced by researchers
as by-products of their proposed explanation techniques to demonstrate the
advantages of their methods. Although widely used, they are more or less
accused of problems. We claim that the lack of acknowledged and justified
metrics results in chaos in benchmarking these explanation methods -- Do we
really have good/bad explanation when a metric gives a high/low score? We split
existing metrics into two categories and demonstrate that they are insufficient
to properly evaluate explanations for multiple reasons. We propose guidelines
in dealing with the problems in evaluating machine learning explanation and
encourage researchers to carefully deal with these problems when developing
explanation techniques and metrics.
- Abstract(参考訳): 信頼できる機械学習の必要性が高まり、解釈可能性の研究が盛んになった。
この目的のために多くの説明方法が開発されている。
しかし、これらの手法は不十分で不適切に評価されている。
説明のための既存の指標の多くは,提案手法の副産物として研究者によって導入されている。
広く使われているが、多かれ少なかれ問題で非難されている。
私たちは、これらの説明方法のベンチマークにおいて、認識され、正当化されたメトリクスの欠如がカオスをもたらすと主張している。
既存のメトリクスを2つのカテゴリに分割し、複数の理由から説明を適切に評価できないことを示しています。
本稿では,機械学習の解説評価における課題に対処するためのガイドラインを提案し,説明手法やメトリクスを開発する際に,研究者がこれらの問題に慎重に対処するよう促す。
関連論文リスト
- An AI Architecture with the Capability to Explain Recognition Results [0.0]
本研究は、説明可能性に対するメトリクスの重要性に焦点をあて、性能向上をもたらす2つの方法に貢献する。
第1の方法は説明不能なフローと説明不能なフローの組み合わせを導入し、意思決定の説明容易性を特徴づける指標を提案する。
第2の方法は、システム内のニューラルネットワークの有効性を推定するための古典的なメトリクスを比較し、新しいメトリックをリードパフォーマーとして振る舞う。
論文 参考訳(メタデータ) (2024-06-13T02:00:13Z) - Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - An Experimental Investigation into the Evaluation of Explainability
Methods [60.54170260771932]
この研究は、9つの最先端XAI法と3つのダミー法(例えば、ランダム・サリエンシ・マップ)に適用された14の異なるメトリクスを比較した。
実験の結果、これらの指標のどれが高い相関関係を示し、潜在的な冗長性を示している。
論文 参考訳(メタデータ) (2023-05-25T08:07:07Z) - Explanation Selection Using Unlabeled Data for Chain-of-Thought
Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:02:34Z) - Complementary Explanations for Effective In-Context Learning [77.83124315634386]
大規模言語モデル (LLM) は、説明のインプロンプトから学習する際、顕著な能力を示した。
この研究は、文脈内学習に説明が使用されるメカニズムをよりよく理解することを目的としている。
論文 参考訳(メタデータ) (2022-11-25T04:40:47Z) - The Solvability of Interpretability Evaluation Metrics [7.3709604810699085]
特徴帰属法は、包括性や充足性などの指標でしばしば評価される。
本稿では,これらの指標の興味深い性質,すなわち可解性について述べる。
このビームサーチの説明器は、一般に現在の選択に匹敵するか、好適であることを示す一連の調査を提示する。
論文 参考訳(メタデータ) (2022-05-18T02:52:03Z) - Detection Accuracy for Evaluating Compositional Explanations of Units [5.220940151628734]
このアプローチを使う方法の2つの例は、ネットワーク分割と構成的説明である。
直感的には、論理形式は原子概念よりも情報的であるが、この改善を定量化する方法は明らかではない。
提案手法は,各ユニットが割り当てた説明文の検出の一貫性を計測する検出精度の評価指標として用いる。
論文 参考訳(メタデータ) (2021-09-16T08:47:34Z) - Towards Benchmarking the Utility of Explanations for Model Debugging [13.135013586592585]
ポストホックな説明法の有用性を評価するためのベンチマークの必要性を論じる。
このようなベンチマークは、説明の有効性を評価するだけでなく、その効率を評価するのに役立ちます。
論文 参考訳(メタデータ) (2021-05-10T16:57:33Z) - Evaluating Explanations: How much do explanations from the teacher aid
students? [103.05037537415811]
本研究では,説明が生徒の学習モデルを改善する程度を測る学生-教師パラダイムを用いて,説明の価値を定式化する。
説明を評価するための従来の提案とは異なり、我々のアプローチは容易にゲーム化できず、原則付き、スケーラブルで、属性の自動評価を可能にします。
論文 参考訳(メタデータ) (2020-12-01T23:40:21Z) - Evaluation of Similarity-based Explanations [36.10585276728203]
ユーザに対して合理的な説明を提供するための関連指標について検討した。
実験の結果,損失の勾配のコサイン類似性が最も良好であることが判明した。
テストでパフォーマンスが悪く、失敗の原因を分析したメトリクスもあります。
論文 参考訳(メタデータ) (2020-06-08T12:39:46Z) - Evaluating Explanation Methods for Neural Machine Translation [44.836653992441455]
NMTモデルの予測挙動に関する忠実度に基づく原理的計量を提案する。
6つの標準翻訳課題において,提案手法を定量的に評価する。
論文 参考訳(メタデータ) (2020-05-04T17:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。