Fugu-MT 論文翻訳(概要): Shortcomings of Top-Down Randomization-Based Sanity Checks for Evaluations of Deep Neural Network Explanations

論文の概要: Shortcomings of Top-Down Randomization-Based Sanity Checks for Evaluations of Deep Neural Network Explanations

arxiv url: http://arxiv.org/abs/2211.12486v1
Date: Tue, 22 Nov 2022 18:52:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-23 17:08:03.729551
Title: Shortcomings of Top-Down Randomization-Based Sanity Checks for Evaluations of Deep Neural Network Explanations
Title（参考訳）: 深部ニューラルネットワーク記述評価のためのトップダウンランダム化に基づく正当性チェックの欠点
Authors: Alexander Binder, Leander Weber, Sebastian Lapuschkin, Gr\'egoire Montavon, Klaus-Robert M\"uller, Wojciech Samek
Abstract要約: モデルランダム化に基づく正当性チェックの限界を,説明書の評価のために同定する。トップダウンモデルランダム化は、フォワードパスアクティベーションのスケールを高い確率で保存する。
参考スコア（独自算出の注目度）: 67.40641255908443
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: While the evaluation of explanations is an important step towards trustworthy models, it needs to be done carefully, and the employed metrics need to be well-understood. Specifically model randomization testing is often overestimated and regarded as a sole criterion for selecting or discarding certain explanation methods. To address shortcomings of this test, we start by observing an experimental gap in the ranking of explanation methods between randomization-based sanity checks [1] and model output faithfulness measures (e.g. [25]). We identify limitations of model-randomization-based sanity checks for the purpose of evaluating explanations. Firstly, we show that uninformative attribution maps created with zero pixel-wise covariance easily achieve high scores in this type of checks. Secondly, we show that top-down model randomization preserves scales of forward pass activations with high probability. That is, channels with large activations have a high probility to contribute strongly to the output, even after randomization of the network on top of them. Hence, explanations after randomization can only be expected to differ to a certain extent. This explains the observed experimental gap. In summary, these results demonstrate the inadequacy of model-randomization-based sanity checks as a criterion to rank attribution methods.
Abstract（参考訳）: 説明の評価は信頼できるモデルへの重要なステップであるが、慎重に行う必要があり、採用されているメトリクスは十分に理解する必要がある。特にモデルランダム化テストは、しばしば過大評価され、ある説明方法を選択または破棄する唯一の基準と見なされる。このテストの欠点を解決するため、ランダム化に基づく正当性チェック[1]とモデル出力忠実度測定(例:[25])の間の説明方法のランク付けにおいて、実験的なギャップを観察することから始める。モデルランダム化に基づく正当性チェックの限界を,説明評価のために同定する。まず,0画素の共分散で生成した非形式的帰属写像は,このようなチェックで容易に高いスコアが得られることを示す。次に,トップダウンモデルのランダム化がフォワードパスアクティベーションのスケールを高い確率で維持することを示す。すなわち、大きなアクティベーションを持つチャネルは、その上にネットワークがランダム化されても、出力に強く貢献する能力が高い。したがって、ランダム化後の説明はある程度の差異しか期待できない。これは観測された実験ギャップを説明する。要約すると、これらの結果は、ランク帰属法に対する基準としてモデルランダム化に基づく正当性チェックが不十分であることを示す。

関連論文リスト

Conformal Generative Modeling with Improved Sample Efficiency through Sequential Greedy Filtering [55.15192437680943]
生成モデルは出力に対する厳密な統計的保証を欠いている。厳密な統計的保証を満たす予測セットを生成する逐次共形予測法を提案する。このことは、高い確率で予測セットが少なくとも1つの許容可能な(または有効な)例を含むことを保証している。
論文参考訳（メタデータ） (2024-10-02T15:26:52Z)
Deep Evidential Learning for Bayesian Quantile Regression [3.6294895527930504]
1つの決定論的フォワードパスモデルから正確な不確実性を推定することが望ましい。本稿では,ガウス的仮定を使わずに連続目標分布の量子化を推定できるディープベイズ量子回帰モデルを提案する。
論文参考訳（メタデータ） (2023-08-21T11:42:16Z)
Testing for Overfitting [0.0]
オーバーフィッティング問題について議論し、トレーニングデータによる評価に標準値と集中値が成立しない理由を説明する。本稿では,モデルの性能をトレーニングデータを用いて評価できる仮説テストを紹介し,議論する。
論文参考訳（メタデータ） (2023-05-09T22:49:55Z)
Boost Test-Time Performance with Closed-Loop Inference [85.43516360332646]
そこで本研究では,モデル性能を高めるために,ループ方式でハードクラス化試験サンプルを予測することを提案する。まず、追加の推論ループを必要とするハードクラス化テストサンプルを識別するためにフィルタリング基準を考案する。各ハードサンプルに対して、モデルのキャリブレーションを行うために、元の上位$K$予測に基づいて補助学習タスクを構築する。
論文参考訳（メタデータ） (2022-03-21T10:20:21Z)
Model-agnostic out-of-distribution detection using combined statistical tests [15.27980070479021]
本稿では,学習された生成モデルを用いた分布外検出のための簡易な手法を提案する。古典的パラメトリックテスト(ラオのスコアテスト)と最近導入された定性テストを組み合わせる。その単純さと汎用性にもかかわらず、これらの手法はモデル固有のアウト・オブ・ディストリビューション検出アルゴリズムと競合することがある。
論文参考訳（メタデータ） (2022-03-02T13:32:09Z)
The Hidden Uncertainty in a Neural Networks Activations [105.4223982696279]
ニューラルネットワークの潜在表現の分布は、アウト・オブ・ディストリビューション(OOD)データの検出に成功している。本研究は、この分布が、モデルの不確実性と相関しているかどうかを考察し、新しい入力に一般化する能力を示す。
論文参考訳（メタデータ） (2020-12-05T17:30:35Z)
Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文参考訳（メタデータ） (2020-10-05T22:13:21Z)
Tracking disease outbreaks from sparse data with Bayesian inference [55.82986443159948]
新型コロナウイルス(COVID-19)のパンデミックは、感染発生時の感染率を推定する新たな動機を与える。標準的な手法は、より細かいスケールで共通する部分的な観測可能性とスパースなデータに対応するのに苦労する。原理的に部分観測可能なベイズ的枠組みを提案する。
論文参考訳（メタデータ） (2020-09-12T20:37:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。