論文の概要: On the stability, correctness and plausibility of visual explanation
methods based on feature importance
- arxiv url: http://arxiv.org/abs/2311.12860v1
- Date: Wed, 25 Oct 2023 08:59:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 00:19:57.624967
- Title: On the stability, correctness and plausibility of visual explanation
methods based on feature importance
- Title(参考訳): 特徴量に基づく視覚的説明法の安定性, 正確性, 妥当性について
- Authors: Romain Xu-Darme (LSL, LIG), Jenny Benois-Pineau (LaBRI), Romain Giot
(LaBRI), Georges Qu\'enot (LIG), Zakaria Chihani (LSL), Marie-Christine
Rousset (LIG), Alexey Zhukov (LaBRI)
- Abstract要約: 画像分類器の特徴的重要性に基づいて, 説明の安定性, 正確性, 妥当性の相違について検討した。
これらの特性を評価するための既存の指標は必ずしも一致せず、説明のための優れた評価基準を構成するものの問題を提起する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of Explainable AI, multiples evaluation metrics have been
proposed in order to assess the quality of explanation methods w.r.t. a set of
desired properties. In this work, we study the articulation between the
stability, correctness and plausibility of explanations based on feature
importance for image classifiers. We show that the existing metrics for
evaluating these properties do not always agree, raising the issue of what
constitutes a good evaluation metric for explanations. Finally, in the
particular case of stability and correctness, we show the possible limitations
of some evaluation metrics and propose new ones that take into account the
local behaviour of the model under test.
- Abstract(参考訳): 説明可能なaiの分野では、所望の特性の集合である説明法w.r.t.の質を評価するために、多重評価指標が提案されている。
本研究では,画像分類器の特徴量に基づく説明の安定性,正確性,信頼性について検討する。
これらの特性を評価するための既存の指標は必ずしも一致せず、説明のための優れた評価基準を構成するものの問題を提起する。
最後に、特定の安定性と正確性の場合、いくつかの評価指標の限界を示し、テスト中のモデルの局所的な振る舞いを考慮した新しい評価基準を提案する。
関連論文リスト
- Towards an Improved Metric for Evaluating Disentangled Representations [0.6946415403594184]
切り離された表現学習は、表現を制御可能、解釈可能、転送可能にする上で重要な役割を果たす。
領域におけるその重要性にもかかわらず、信頼性と一貫した量的絡み合い計量の探求は依然として大きな課題である。
そこで本稿では, 直感的概念の強調と係数-符号関係の改善を生かしたemphEDIという測度を導入することにより, 絡み合いの定量化のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-04T00:32:59Z) - Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - On The Coherence of Quantitative Evaluation of Visual Explanations [0.7212939068975619]
視覚的説明の「良さ」を評価するための評価手法が提案されている。
我々はImageNet-1k検証セットのサブセットについて検討し、多くの一般的な説明手法を評価した。
本研究の結果から, 評価方法のいくつかは, 階調のコヒーレンシーが欠如していることが示唆された。
論文 参考訳(メタデータ) (2023-02-14T13:41:57Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - How (Not) To Evaluate Explanation Quality [29.40729766120284]
タスクやドメインにまたがって適用される説明品質の望ましい特性を定式化する。
本稿では,今日の説明品質評価を制限する障害を克服するための実用的なガイドラインを提案する。
論文 参考訳(メタデータ) (2022-10-13T16:06:59Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Rethinking Stability for Attribution-based Explanations [20.215505482157255]
説明の安定性を定量化するためにメトリクスを導入し、いくつかの一般的な説明方法が不安定であることを示す。
特に、入力の変化、モデル表現、または基礎となる予測子の出力に関する出力説明の変化を測定するための新しい相対安定度指標を提案する。
論文 参考訳(メタデータ) (2022-03-14T06:19:27Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Evaluations and Methods for Explanation through Robustness Analysis [117.7235152610957]
分析による特徴に基づく説明の新たな評価基準を確立する。
我々は、緩やかに必要であり、予測に十分である新しい説明を得る。
我々は、現在の予測をターゲットクラスに移動させる一連の特徴を抽出するために、説明を拡張します。
論文 参考訳(メタデータ) (2020-05-31T05:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。