論文の概要: Debugging Tests for Model Explanations
- arxiv url: http://arxiv.org/abs/2011.05429v1
- Date: Tue, 10 Nov 2020 22:23:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 07:07:06.848200
- Title: Debugging Tests for Model Explanations
- Title(参考訳): モデル説明のためのデバッギングテスト
- Authors: Julius Adebayo, Michael Muelly, Ilaria Liccardi, Been Kim
- Abstract要約: テストされたメソッドは、急激なバックグラウンドバグを診断することができるが、誤ってラベル付けされたトレーニング例を決定的に識別することはできない。
被験者は属性を用いて欠陥モデルを特定するのに失敗するが、主にモデル予測に頼っている。
- 参考スコア(独自算出の注目度): 18.073554618753395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate whether post-hoc model explanations are effective for
diagnosing model errors--model debugging. In response to the challenge of
explaining a model's prediction, a vast array of explanation methods have been
proposed. Despite increasing use, it is unclear if they are effective. To
start, we categorize \textit{bugs}, based on their source, into:~\textit{data,
model, and test-time} contamination bugs. For several explanation methods, we
assess their ability to: detect spurious correlation artifacts (data
contamination), diagnose mislabeled training examples (data contamination),
differentiate between a (partially) re-initialized model and a trained one
(model contamination), and detect out-of-distribution inputs (test-time
contamination). We find that the methods tested are able to diagnose a spurious
background bug, but not conclusively identify mislabeled training examples. In
addition, a class of methods, that modify the back-propagation algorithm are
invariant to the higher layer parameters of a deep network; hence, ineffective
for diagnosing model contamination. We complement our analysis with a human
subject study, and find that subjects fail to identify defective models using
attributions, but instead rely, primarily, on model predictions. Taken
together, our results provide guidance for practitioners and researchers
turning to explanations as tools for model debugging.
- Abstract(参考訳): モデルエラーの診断にポストホックモデルの説明が有効かどうかを検討する。
モデルの予測を説明する上での課題に対して,多数の説明手法が提案されている。
使用量の増加にもかかわらず、有効かどうかは不明である。
まず、ソースに基づいて、次のように分類する。~\textit{data, model, and test-time} 汚染バグ。
いくつかの説明法では, 突発的相関アーチファクト(データ汚染), 誤ラベル付きトレーニング例(データ汚染), 再初期化モデルとトレーニングモデル(モデル汚染)を区別し, アウト・オブ・ディストリビューション入力(テスト時間汚染)を検出する能力を評価する。
テストした手法は、素早いバックグラウンドバグを診断できるが、誤ってラベル付けされたトレーニング例を確定するものではない。
さらに、バックプロパゲーションアルゴリズムを変更する手法のクラスは、ディープネットワークの上位層パラメータに不変であるため、モデル汚染の診断には有効ではない。
分析を人間の被験者による研究で補完し、被験者は帰属を使って欠陥のあるモデルを識別できないが、主にモデル予測に依存していることを発見した。
総合すると,モデルデバッグのためのツールとして説明を行う実践者や研究者にガイダンスを提供する。
関連論文リスト
- Demystifying amortized causal discovery with transformers [21.058343547918053]
観測データからの因果発見のための教師付き学習アプローチは、しばしば競争性能を達成する。
本研究では,CSIvAについて検討する。CSIvAは,合成データのトレーニングと実データへの転送を約束するトランスフォーマーモデルである。
既存の識別可能性理論とギャップを埋め、トレーニングデータ分布の制約がテスト観測の事前を暗黙的に定義していることを示します。
論文 参考訳(メタデータ) (2024-05-27T08:17:49Z) - Revealing Model Biases: Assessing Deep Neural Networks via Recovered
Sample Analysis [9.05607520128194]
本稿では、深層ニューラルネットワーク(DNN)がトレーニングサンプルの第一概念に依存しているかどうかを簡易かつ費用対効果で評価する手法を提案する。
提案手法は,テストや一般化のサンプルを一切必要とせず,訓練対象モデルのパラメータとマージンにあるトレーニングデータのみを必要とする。
論文 参考訳(メタデータ) (2023-06-10T11:20:04Z) - Sanity Checks for Saliency Methods Explaining Object Detectors [5.735035463793008]
ディープニューラルネットワークベースのモデルを説明するために、サリエンシ法が頻繁に使用される。
対象物検出のための正当性チェックを行い,正当性説明を評価するための新しい質的基準を定義した。
EfficientDet-D0はSaliency法とは無関係に最も解釈可能な手法である。
論文 参考訳(メタデータ) (2023-06-04T17:57:51Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Training on Test Data with Bayesian Adaptation for Covariate Shift [96.3250517412545]
ディープニューラルネットワークは、信頼できない不確実性推定で不正確な予測を行うことが多い。
分布シフトの下でのラベルなし入力とモデルパラメータとの明確に定義された関係を提供するベイズモデルを導出する。
本手法は精度と不確実性の両方を向上することを示す。
論文 参考訳(メタデータ) (2021-09-27T01:09:08Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Defuse: Harnessing Unrestricted Adversarial Examples for Debugging
Models Beyond Test Accuracy [11.265020351747916]
Defuseは、テストデータ以外のモデルエラーを自動的に検出し、修正する手法である。
本稿では, 生成モデルを用いて, モデルによって誤分類された自然発生事例を探索する逆機械学習手法に着想を得たアルゴリズムを提案する。
Defuseはテストセットの一般化を維持しながら、微調整後のエラーを修正する。
論文 参考訳(メタデータ) (2021-02-11T18:08:42Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。