論文の概要: Metrics for saliency map evaluation of deep learning explanation methods
- arxiv url: http://arxiv.org/abs/2201.13291v1
- Date: Mon, 31 Jan 2022 14:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 15:35:32.607512
- Title: Metrics for saliency map evaluation of deep learning explanation methods
- Title(参考訳): 深層学習説明法の塩分マップ評価のためのメトリクス
- Authors: Tristan Gomez, Thomas Fr\'eour, Harold Mouch\`ere
- Abstract要約: 我々はPetsiukらによって提案された削除領域(DAUC)と挿入領域(IAUC)のメトリクスを批判的に分析する。
これらの指標はGrad-CAM や RISE といった一般的な手法によって生成されるサリエンシマップの忠実さを評価するために設計された。
本研究は,サリエンシマップによって与えられる実際のサリエンシスコア値が無視されることを示し,スコアのランキングのみを考慮した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the black-box nature of deep learning models, there is a recent
development of solutions for visual explanations of CNNs. Given the high cost
of user studies, metrics are necessary to compare and evaluate these different
methods. In this paper, we critically analyze the Deletion Area Under Curve
(DAUC) and Insertion Area Under Curve (IAUC) metrics proposed by Petsiuk et al.
(2018). These metrics were designed to evaluate the faithfulness of saliency
maps generated by generic methods such as Grad-CAM or RISE. First, we show that
the actual saliency score values given by the saliency map are ignored as only
the ranking of the scores is taken into account. This shows that these metrics
are insufficient by themselves, as the visual appearance of a saliency map can
change significantly without the ranking of the scores being modified.
Secondly, we argue that during the computation of DAUC and IAUC, the model is
presented with images that are out of the training distribution which might
lead to an unreliable behavior of the model being explained. %First, we show
that one can drastically change the visual appearance of an explanation map
without changing the pixel ranking, i.e. without changing the DAUC and IAUC
values. %We argue that DAUC and IAUC only takes into account the scores ranking
and ignore the score values. To complement DAUC/IAUC, we propose new metrics
that quantify the sparsity and the calibration of explanation methods, two
previously unstudied properties. Finally, we give general remarks about the
metrics studied in this paper and discuss how to evaluate them in a user study.
- Abstract(参考訳): ディープラーニングモデルのブラックボックス性により、cnnの視覚的な説明のためのソリューションが最近開発されている。
ユーザ研究のコストが高いため、これらの異なる方法を比較して評価するにはメトリクスが必要です。
本稿では,petsiuk et al. (2018) が提案した曲線(dauc)下の削除面積と曲線(iauc)上の挿入面積について批判的に解析する。
これらの指標はGrad-CAM や RISE といった一般的な手法によって生成されるサリエンシマップの忠実さを評価するために設計された。
まず,スコアのランク付けのみを考慮し,サリエンシーマップが与えた実際のサリエンシースコア値を無視したことを示す。
これは、サリエンシーマップの視覚的な外観がスコアのランキングを変更することなく著しく変化するため、これらの指標がそれ自体では不十分であることを示している。
第2に、DAUCとIAUCの計算において、モデルはトレーニング分布から外れたイメージで提示され、それが説明されるモデルの信頼性の低い振る舞いに繋がる可能性があると論じる。
まず,DAUCとIAUCの値を変更することなく,画素ランクを変更することなく,説明地図の視覚的外観を大幅に変えることができることを示す。
% DAUC と IAUC はスコアのランク付けとスコアの無視のみを考慮に入れている,と我々は主張する。
DAUC/IAUCを補完するために,2つの未研究特性である説明手法の疎度と校正を定量化する新しい指標を提案する。
最後に,本論文で検討した指標について概説し,ユーザスタディにおける評価方法について考察する。
関連論文リスト
- Schroedinger's Threshold: When the AUC doesn't predict Accuracy [6.091702876917282]
エリアアンダーカーブ測度(AUC)は、様々なモデルを評価し比較する傾向にある。
我々は,AUCが,アプリケーションで観測される実際の精度と誤認できる,学術的で楽観的な精度の概念を導出することを示す。
論文 参考訳(メタデータ) (2024-04-04T10:18:03Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Evaluation of FEM and MLFEM AI-explainers in Image Classification tasks
with reference-based and no-reference metrics [0.0]
画像と映像の分類タスクにおけるCNNの説明のために設計された,最近提案されたポストホック説明器 FEM と MLFEM を思い出させる。
基準ベースおよび非参照メトリクスを用いて評価を行う。
非参照計量として、Alvarez-Melis と Jaakkola によって提案された「安定」計量を用いる。
論文 参考訳(メタデータ) (2022-12-02T14:55:31Z) - ATCON: Attention Consistency for Vision Models [0.8312466807725921]
注意マップの整合性を改善する教師なしの微調整法を提案する。
Ablation studyではGrad-CAMおよびIntegrated Gradientsについて検討した。
これらの改良された注意マップは、臨床医が視覚モデル予測をよりよく理解するのに役立ちます。
論文 参考訳(メタデータ) (2022-10-18T09:30:20Z) - Attributing AUC-ROC to Analyze Binary Classifier Performance [13.192005156790302]
本稿では,AUC-ROC(Area Under the Receiver Operating Characteristics Curve)を人間の解釈可能な次元に沿って分割する手法について議論する。
AUC-ROCはデータサンプル上の加算/線形関数ではないので、AUC-ROC全体のセグメント化はデータセグメントのAUC-ROCの集計とは異なる。
論文 参考訳(メタデータ) (2022-05-24T04:42:52Z) - CIM: Class-Irrelevant Mapping for Few-Shot Classification [58.02773394658623]
FSC(Few-shot Classification)は近年のホットな問題の一つである。
事前訓練されたFEMを評価する方法は、FSCコミュニティにおいて最も重要な焦点である。
CIM(Class-Irrelevant Mapping)と呼ばれるシンプルなフレキシブルな手法を提案する。
論文 参考訳(メタデータ) (2021-09-07T03:26:24Z) - CAMERAS: Enhanced Resolution And Sanity preserving Class Activation
Mapping for image saliency [61.40511574314069]
バックプロパゲーション画像のサリエンシは、入力中の個々のピクセルのモデル中心の重要性を推定することにより、モデル予測を説明することを目的としている。
CAMERASは、外部の事前処理を必要とせずに、高忠実度バックプロパゲーション・サリエンシ・マップを計算できる手法である。
論文 参考訳(メタデータ) (2021-06-20T08:20:56Z) - A Sober Look at the Unsupervised Learning of Disentangled
Representations and their Evaluation [63.042651834453544]
モデルとデータの両方に帰納的バイアスを伴わずに,非教師なしの非教師付き表現学習は不可能であることを示す。
異なる手法は、対応する損失によって「強化」された特性を効果的に強制するが、よく見分けられたモデルは監督なしでは特定できないように見える。
以上の結果から,遠絡学習における今後の研究は,帰納的バイアスと(単純に)監督の役割を明確化すべきであることが示唆された。
論文 参考訳(メタデータ) (2020-10-27T10:17:15Z) - Evaluation Metrics for Conditional Image Generation [100.69766435176557]
クラス条件画像生成設定において生成モデルを評価するための2つの新しい指標を提案する。
理論的分析は、提案されたメトリクスの背景にあるモチベーションを示し、新しいメトリクスと条件のないメトリクスを結びつける。
我々は,実験的な評価を行い,その指標を条件のない変種や他の指標と比較し,既存の生成モデルの解析に利用した。
論文 参考訳(メタデータ) (2020-04-26T12:15:16Z) - Uncertainty based Class Activation Maps for Visual Question Answering [30.859101872119517]
本稿では,視覚的注意マップを提供する勾配に基づく確実性推定手法を提案する。
我々は,これらの推定値の勾配を用いて,より改良した現代確率的ディープラーニング手法を取り入れた。
提案手法は,深層学習モデルの精度向上と説明のためのレシピとみなすことができる。
論文 参考訳(メタデータ) (2020-01-23T19:54:19Z) - Towards GAN Benchmarks Which Require Generalization [48.075521136623564]
関数を推定するにはモデルからの大きなサンプルが必要であると我々は主張する。
我々は、分布を区別するために訓練されたニューラルネットワークの用語で定義されるニューラルネットワーク分散(NND)に目を向ける。
結果として得られたベンチマークは、トレーニングセットの記憶によって"ウォン"することはできないが、それでも知覚的に相関があり、サンプルからのみ計算可能である。
論文 参考訳(メタデータ) (2020-01-10T20:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。