論文の概要: Do Input Gradients Highlight Discriminative Features?
- arxiv url: http://arxiv.org/abs/2102.12781v1
- Date: Thu, 25 Feb 2021 11:04:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 21:00:43.889871
- Title: Do Input Gradients Highlight Discriminative Features?
- Title(参考訳): 入力勾配はハイライトの識別的特徴か?
- Authors: Harshay Shah, Prateek Jain, Praneeth Netrapalli
- Abstract要約: 解釈可能性メソッドはインスタンス固有のモデル予測を説明する。
ベンチマーク画像分類タスクのためのこの仮説を研究するための評価フレームワークを紹介します。
CIFAR-10とImagenet-10データセットの2つの驚くべき観測を行った。
- 参考スコア(独自算出の注目度): 42.47346844105727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretability methods that seek to explain instance-specific model
predictions [Simonyan et al. 2014, Smilkov et al. 2017] are often based on the
premise that the magnitude of input-gradient -- gradient of the loss with
respect to input -- highlights discriminative features that are relevant for
prediction over non-discriminative features that are irrelevant for prediction.
In this work, we introduce an evaluation framework to study this hypothesis for
benchmark image classification tasks, and make two surprising observations on
CIFAR-10 and Imagenet-10 datasets: (a) contrary to conventional wisdom, input
gradients of standard models (i.e., trained on the original data) actually
highlight irrelevant features over relevant features; (b) however, input
gradients of adversarially robust models (i.e., trained on adversarially
perturbed data) starkly highlight relevant features over irrelevant features.
To better understand input gradients, we introduce a synthetic testbed and
theoretically justify our counter-intuitive empirical findings. Our
observations motivate the need to formalize and verify common assumptions in
interpretability, while our evaluation framework and synthetic dataset serve as
a testbed to rigorously analyze instance-specific interpretability methods.
- Abstract(参考訳): インスタンス固有のモデル予測を説明する解釈可能性手法 [Simonyan et al]。
2014年、Smilkovら。
2017] 多くの場合、入力勾配(入力に対する損失の勾配)は、予測に関係のない非差別的特徴に対する予測に関連する識別的特徴を強調しているという前提に基づいています。
In this work, we introduce an evaluation framework to study this hypothesis for benchmark image classification tasks, and make two surprising observations on CIFAR-10 and Imagenet-10 datasets: (a) contrary to conventional wisdom, input gradients of standard models (i.e., trained on the original data) actually highlight irrelevant features over relevant features; (b) however, input gradients of adversarially robust models (i.e., trained on adversarially perturbed data) starkly highlight relevant features over irrelevant features.
入力勾配をよりよく理解するために、我々は合成テストベッドを導入し、理論的には反直感的な経験的発見を正当化する。
評価フレームワークと合成データセットは、インスタンス固有の解釈可能性メソッドを厳格に分析するためのテストベッドとして機能しています。
関連論文リスト
- LUCID-GAN: Conditional Generative Models to Locate Unfairness [1.5257247496416746]
本稿では,勾配に基づく逆設計の代わりに条件付き生成モデルを用いて標準入力を生成するLUCID-GANを提案する。
UCIアダルトデータセットとCompASデータセットのLUCID-GANを実験的に評価し、トレーニングデータへのアクセスを必要とせず、ブラックボックスモデルにおける非倫理的バイアスを検出することができることを示す。
論文 参考訳(メタデータ) (2023-07-28T10:37:49Z) - Generalizing Backpropagation for Gradient-Based Interpretability [103.2998254573497]
モデルの勾配は、半環を用いたより一般的な定式化の特別な場合であることを示す。
この観測により、バックプロパゲーションアルゴリズムを一般化し、他の解釈可能な統計を効率的に計算することができる。
論文 参考訳(メタデータ) (2023-07-06T15:19:53Z) - Model Debiasing via Gradient-based Explanation on Representation [14.673988027271388]
本稿では,デリケートな属性やプロキシな属性に関して,デバイアスを行う新しいフェアネスフレームワークを提案する。
我々のフレームワークは、過去の最先端のアプローチよりも、構造化されていないデータセットと構造化されたデータセットの公平性と正確なトレードオフを達成しています。
論文 参考訳(メタデータ) (2023-05-20T11:57:57Z) - Measuring Implicit Bias Using SHAP Feature Importance and Fuzzy
Cognitive Maps [1.9739269019020032]
本稿では,特徴重要度の概念と暗黙バイアスをパターン分類の文脈で統合する。
保護された特徴に対するバイアスの量は、その特徴が数値的にか分類的に符号化されているかによって異なるかもしれない。
論文 参考訳(メタデータ) (2023-05-16T12:31:36Z) - Rethinking interpretation: Input-agnostic saliency mapping of deep
visual classifiers [28.28834523468462]
Saliencyメソッドは、入力特徴をモデル出力に寄与させることで、ポストホックモデルの解釈を提供する。
入力特異性マッピングは本質的に誤解を招く特徴の帰属に影響を受けやすいことを示す。
本稿では,モデルが持つ高次特徴をその出力に対して計算的に推定する,入力非依存のサリエンシマッピングの新たな視点を紹介する。
論文 参考訳(メタデータ) (2023-03-31T06:58:45Z) - Semi-FairVAE: Semi-supervised Fair Representation Learning with
Adversarial Variational Autoencoder [92.67156911466397]
逆変分オートエンコーダに基づく半教師付き公正表現学習手法を提案する。
我々は、バイアス認識モデルを用いて、機密属性の固有バイアス情報をキャプチャする。
また、偏見のないモデルを用いて、対立学習を用いて偏見情報を取り除き、偏見のない公正表現を学習する。
論文 参考訳(メタデータ) (2022-04-01T15:57:47Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z) - Achieving Equalized Odds by Resampling Sensitive Attributes [13.114114427206678]
等価性の概念をほぼ満足する予測モデルを学習するためのフレキシブルなフレームワークを提案する。
この微分可能な関数は、モデルパラメータを等化奇数に向けて駆動するペナルティとして使用される。
本研究は,予測規則が本性質に反するか否かを検出するための公式な仮説テストを開発する。
論文 参考訳(メタデータ) (2020-06-08T00:18:34Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。