論文の概要: Shortcomings of Top-Down Randomization-Based Sanity Checks for
Evaluations of Deep Neural Network Explanations
- arxiv url: http://arxiv.org/abs/2211.12486v1
- Date: Tue, 22 Nov 2022 18:52:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 17:08:03.729551
- Title: Shortcomings of Top-Down Randomization-Based Sanity Checks for
Evaluations of Deep Neural Network Explanations
- Title(参考訳): 深部ニューラルネットワーク記述評価のためのトップダウンランダム化に基づく正当性チェックの欠点
- Authors: Alexander Binder, Leander Weber, Sebastian Lapuschkin, Gr\'egoire
Montavon, Klaus-Robert M\"uller, Wojciech Samek
- Abstract要約: モデルランダム化に基づく正当性チェックの限界を,説明書の評価のために同定する。
トップダウンモデルランダム化は、フォワードパスアクティベーションのスケールを高い確率で保存する。
- 参考スコア(独自算出の注目度): 67.40641255908443
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While the evaluation of explanations is an important step towards trustworthy
models, it needs to be done carefully, and the employed metrics need to be
well-understood. Specifically model randomization testing is often
overestimated and regarded as a sole criterion for selecting or discarding
certain explanation methods. To address shortcomings of this test, we start by
observing an experimental gap in the ranking of explanation methods between
randomization-based sanity checks [1] and model output faithfulness measures
(e.g. [25]). We identify limitations of model-randomization-based sanity checks
for the purpose of evaluating explanations. Firstly, we show that uninformative
attribution maps created with zero pixel-wise covariance easily achieve high
scores in this type of checks. Secondly, we show that top-down model
randomization preserves scales of forward pass activations with high
probability. That is, channels with large activations have a high probility to
contribute strongly to the output, even after randomization of the network on
top of them. Hence, explanations after randomization can only be expected to
differ to a certain extent. This explains the observed experimental gap. In
summary, these results demonstrate the inadequacy of model-randomization-based
sanity checks as a criterion to rank attribution methods.
- Abstract(参考訳): 説明の評価は信頼できるモデルへの重要なステップであるが、慎重に行う必要があり、採用されているメトリクスは十分に理解する必要がある。
特にモデルランダム化テストは、しばしば過大評価され、ある説明方法を選択または破棄する唯一の基準と見なされる。
このテストの欠点を解決するため、ランダム化に基づく正当性チェック[1]とモデル出力忠実度測定(例:[25])の間の説明方法のランク付けにおいて、実験的なギャップを観察することから始める。
モデルランダム化に基づく正当性チェックの限界を,説明評価のために同定する。
まず,0画素の共分散で生成した非形式的帰属写像は,このようなチェックで容易に高いスコアが得られることを示す。
次に,トップダウンモデルのランダム化がフォワードパスアクティベーションのスケールを高い確率で維持することを示す。
すなわち、大きなアクティベーションを持つチャネルは、その上にネットワークがランダム化されても、出力に強く貢献する能力が高い。
したがって、ランダム化後の説明はある程度の差異しか期待できない。
これは観測された実験ギャップを説明する。
要約すると、これらの結果は、ランク帰属法に対する基準としてモデルランダム化に基づく正当性チェックが不十分であることを示す。
関連論文リスト
- Deep Evidential Learning for Bayesian Quantile Regression [3.6294895527930504]
1つの決定論的フォワードパスモデルから正確な不確実性を推定することが望ましい。
本稿では,ガウス的仮定を使わずに連続目標分布の量子化を推定できるディープベイズ量子回帰モデルを提案する。
論文 参考訳(メタデータ) (2023-08-21T11:42:16Z) - Testing for Overfitting [0.0]
オーバーフィッティング問題について議論し、トレーニングデータによる評価に標準値と集中値が成立しない理由を説明する。
本稿では,モデルの性能をトレーニングデータを用いて評価できる仮説テストを紹介し,議論する。
論文 参考訳(メタデータ) (2023-05-09T22:49:55Z) - Boost Test-Time Performance with Closed-Loop Inference [85.43516360332646]
そこで本研究では,モデル性能を高めるために,ループ方式でハードクラス化試験サンプルを予測することを提案する。
まず、追加の推論ループを必要とするハードクラス化テストサンプルを識別するためにフィルタリング基準を考案する。
各ハードサンプルに対して、モデルのキャリブレーションを行うために、元の上位$K$予測に基づいて補助学習タスクを構築する。
論文 参考訳(メタデータ) (2022-03-21T10:20:21Z) - Model-agnostic out-of-distribution detection using combined statistical
tests [15.27980070479021]
本稿では,学習された生成モデルを用いた分布外検出のための簡易な手法を提案する。
古典的パラメトリックテスト(ラオのスコアテスト)と最近導入された定性テストを組み合わせる。
その単純さと汎用性にもかかわらず、これらの手法はモデル固有のアウト・オブ・ディストリビューション検出アルゴリズムと競合することがある。
論文 参考訳(メタデータ) (2022-03-02T13:32:09Z) - The Hidden Uncertainty in a Neural Networks Activations [105.4223982696279]
ニューラルネットワークの潜在表現の分布は、アウト・オブ・ディストリビューション(OOD)データの検出に成功している。
本研究は、この分布が、モデルの不確実性と相関しているかどうかを考察し、新しい入力に一般化する能力を示す。
論文 参考訳(メタデータ) (2020-12-05T17:30:35Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Tracking disease outbreaks from sparse data with Bayesian inference [55.82986443159948]
新型コロナウイルス(COVID-19)のパンデミックは、感染発生時の感染率を推定する新たな動機を与える。
標準的な手法は、より細かいスケールで共通する部分的な観測可能性とスパースなデータに対応するのに苦労する。
原理的に部分観測可能なベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-12T20:37:33Z) - A Causal Direction Test for Heterogeneous Populations [10.653162005300608]
ほとんどの因果モデルでは、単一の同質な集団を仮定するが、これは多くの応用において成り立たない仮定である。
等質性仮定に違反した場合、そのような仮定に基づいて開発された因果モデルが正しい因果方向を識別できないことを示す。
我々は,$k$-means型クラスタリングアルゴリズムを用いて,一般的な因果方向検定統計量の調整を提案する。
論文 参考訳(メタデータ) (2020-06-08T18:59:14Z) - Efficiently Sampling Functions from Gaussian Process Posteriors [76.94808614373609]
高速後部サンプリングのための簡易かつ汎用的なアプローチを提案する。
分離されたサンプルパスがガウス過程の後部を通常のコストのごく一部で正確に表現する方法を実証する。
論文 参考訳(メタデータ) (2020-02-21T14:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。