論文の概要: The Solvability of Interpretability Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2205.08696v1
- Date: Wed, 18 May 2022 02:52:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 20:59:25.564288
- Title: The Solvability of Interpretability Evaluation Metrics
- Title(参考訳): 解釈可能性評価尺度の可解性
- Authors: Yilun Zhou, Julie Shah
- Abstract要約: 特徴帰属法は、包括性や充足性などの指標でしばしば評価される。
本稿では,これらの指標の興味深い性質,すなわち可解性について述べる。
このビームサーチの説明器は、一般に現在の選択に匹敵するか、好適であることを示す一連の調査を提示する。
- 参考スコア(独自算出の注目度): 7.3709604810699085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feature attribution methods are popular for explaining neural network
predictions, and they are often evaluated on metrics such as comprehensiveness
and sufficiency, which are motivated by the principle that more important
features -- as judged by the explanation -- should have larger impacts on model
prediction. In this paper, we highlight an intriguing property of these
metrics: their solvability. Concretely, we can define the problem of optimizing
an explanation for a metric and solve it using beam search. This brings up the
obvious question: given such solvability, why do we still develop other
explainers and then evaluate them on the metric? We present a series of
investigations showing that this beam search explainer is generally comparable
or favorable to current choices such as LIME and SHAP, suggest rethinking the
goals of model interpretability, and identify several directions towards better
evaluations of new method proposals.
- Abstract(参考訳): 特徴属性法はニューラルネットワークの予測を説明するのに人気があり、モデル予測に大きな影響を与えるべきだという原則によって動機づけられた包括性や充足性などのメトリクスで評価されることが多い。
本稿では,これらの指標の興味深い性質,すなわち可解性を明らかにする。
具体的には、メートル法の説明を最適化し、ビームサーチを用いて解決する問題を定義できる。
このような可解性を考えると、なぜ他の説明器を開発してメトリクスで評価するのでしょうか。
本研究は,LIME や SHAP などの現行の選択肢と概ね同等あるいは好適であることを示す一連の調査を行い,モデル解釈可能性の目標を再考し,新しい手法提案のより良い評価に向けてのいくつかの方向を明らかにする。
関連論文リスト
- A Critical Assessment of Interpretable and Explainable Machine Learning for Intrusion Detection [0.0]
本稿では,過度に複雑で不透明なMLモデル,不均衡なデータと相関した特徴,異なる説明法における不整合な影響特徴,そして説明の不可能な有用性について検討する。
具体的には、Deep Neural Networksのような複雑な不透明モデルを避け、代わりにDecision Treesのような解釈可能なMLモデルを使用することを推奨する。
機能ベースのモデル説明は、多くの場合、異なる設定で矛盾している。
論文 参考訳(メタデータ) (2024-07-04T15:35:42Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Detection Accuracy for Evaluating Compositional Explanations of Units [5.220940151628734]
このアプローチを使う方法の2つの例は、ネットワーク分割と構成的説明である。
直感的には、論理形式は原子概念よりも情報的であるが、この改善を定量化する方法は明らかではない。
提案手法は,各ユニットが割り当てた説明文の検出の一貫性を計測する検出精度の評価指標として用いる。
論文 参考訳(メタデータ) (2021-09-16T08:47:34Z) - Search Methods for Sufficient, Socially-Aligned Feature Importance
Explanations with In-Distribution Counterfactuals [72.00815192668193]
特徴重要度(FI)推定は一般的な説明形式であり、テスト時に特定の入力特徴を除去することによって生じるモデル信頼度の変化を計算し、評価することが一般的である。
FIに基づく説明の未探索次元についていくつかの考察を行い、この説明形式に対する概念的および実証的な改善を提供する。
論文 参考訳(メタデータ) (2021-06-01T20:36:48Z) - Evaluation of Similarity-based Explanations [36.10585276728203]
ユーザに対して合理的な説明を提供するための関連指標について検討した。
実験の結果,損失の勾配のコサイン類似性が最も良好であることが判明した。
テストでパフォーマンスが悪く、失敗の原因を分析したメトリクスもあります。
論文 参考訳(メタデータ) (2020-06-08T12:39:46Z) - Evaluations and Methods for Explanation through Robustness Analysis [117.7235152610957]
分析による特徴に基づく説明の新たな評価基準を確立する。
我々は、緩やかに必要であり、予測に十分である新しい説明を得る。
我々は、現在の予測をターゲットクラスに移動させる一連の特徴を抽出するために、説明を拡張します。
論文 参考訳(メタデータ) (2020-05-31T05:52:05Z) - Invariant Rationalization [84.1861516092232]
典型的な合理化基準、すなわち最大相互情報(MMI)は、合理性のみに基づいて予測性能を最大化する合理性を見つける。
ゲーム理論の不変な有理化基準を導入し、各環境において同じ予測器を最適にするために、有理を制約する。
理論的にも実証的にも、提案された理性は、素早い相関を除外し、異なるテストシナリオをより一般化し、人間の判断とよく一致させることができることを示す。
論文 参考訳(メタデータ) (2020-03-22T00:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。