論文の概要: Towards a Theory of Faithfulness: Faithful Explanations of
Differentiable Classifiers over Continuous Data
- arxiv url: http://arxiv.org/abs/2205.09620v1
- Date: Thu, 19 May 2022 15:34:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 21:02:51.835757
- Title: Towards a Theory of Faithfulness: Faithful Explanations of
Differentiable Classifiers over Continuous Data
- Title(参考訳): 忠実性の理論に向けて:連続データ上の微分可能分類器の忠実な説明
- Authors: Nico Potyka, Xiang Yin, Francesca Toni
- Abstract要約: 特徴帰属法に対する忠実性の形式的定義を2つ提案する。
定性的忠実性は、スコアがモデル上の特徴の真の定性的効果(正対負)を反映することを要求する。
実験により、一般的な帰属法では、データが連続している環境では、忠実な説明が得られないことを実証した。
- 参考スコア(独自算出の注目度): 17.9926469947157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is broad agreement in the literature that explanation methods should be
faithful to the model that they explain, but faithfulness remains a rather
vague term. We revisit faithfulness in the context of continuous data and
propose two formal definitions of faithfulness for feature attribution methods.
Qualitative faithfulness demands that scores reflect the true qualitative
effect (positive vs. negative) of the feature on the model and quanitative
faithfulness that the magnitude of scores reflect the true quantitative effect.
We discuss under which conditions these requirements can be satisfied to which
extent (local vs global). As an application of the conceptual idea, we look at
differentiable classifiers over continuous data and characterize
Gradient-scores as follows: every qualitatively faithful feature attribution
method is qualitatively equivalent to Gradient-scores. Furthermore, if an
attribution method is quantitatively faithful in the sense that changes of the
output of the classifier are proportional to the scores of features, then it is
either equivalent to gradient-scoring or it is based on an inferior
approximation of the classifier. To illustrate the practical relevance of the
theory, we experimentally demonstrate that popular attribution methods can fail
to give faithful explanations in the setting where the data is continuous and
the classifier differentiable.
- Abstract(参考訳): 文献には説明方法が説明のモデルに忠実であるべきだという広い一致があるが、忠実さはいまだに曖昧な用語である。
連続データの文脈で忠実性を再検討し,特徴帰属法に対する忠実性に関する2つの形式的定義を提案する。
定性的忠実性は、スコアがモデル上の特徴の真の質的効果(正対負)を反映し、スコアの大きさが真の量的効果を反映することを要求する。
我々は、これらの要件をどの程度まで(ローカル対グローバル)満たせるかについて議論する。
概念概念の応用として、連続データ上の微分可能な分類器を考察し、グラデーションスコアを次のように特徴づける: 定性的に忠実な特徴帰属法はすべて、定性的にグラデーションスコアと等価である。
さらに、分類器の出力の変化が特徴のスコアに比例するという意味で、帰属法が定量的に忠実であるならば、その分類器の劣等な近似に基づいているか、または、グラデーション・スコーリングと等価である。
この理論の実際的妥当性を説明するために,一般的な帰属法ではデータが連続的かつ分類子微分可能な設定において忠実な説明ができないことを実験的に証明する。
関連論文リスト
- Measuring Implicit Bias Using SHAP Feature Importance and Fuzzy
Cognitive Maps [1.9739269019020032]
本稿では,特徴重要度の概念と暗黙バイアスをパターン分類の文脈で統合する。
保護された特徴に対するバイアスの量は、その特徴が数値的にか分類的に符号化されているかによって異なるかもしれない。
論文 参考訳(メタデータ) (2023-05-16T12:31:36Z) - Comparing Explanation Methods for Traditional Machine Learning Models
Part 2: Quantifying Model Explainability Faithfulness and Improvements with
Dimensionality Reduction [0.0]
忠実さ」または「忠実さ」とは、割り当てられた特徴の重要性と、その特徴のモデル性能への貢献の対応を指す。
本研究は,関係する特徴を限定することによる説明可能性の向上と,異なる説明可能性手法の相対的忠実性を知ることから,初めて説明可能性の向上を定量化した1つである。
論文 参考訳(メタデータ) (2022-11-18T17:15:59Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Learning Conditional Invariance through Cycle Consistency [60.85059977904014]
本稿では,データセットの変動の有意義な要因と独立な要因を識別する新しい手法を提案する。
提案手法は,対象プロパティと残りの入力情報に対する2つの別個の潜在部分空間を含む。
我々は,より意味のある因子を同定し,よりスペーサーや解釈可能なモデルに導く合成および分子データについて実証する。
論文 参考訳(メタデータ) (2021-11-25T17:33:12Z) - Discriminative Attribution from Counterfactuals [64.94009515033984]
本稿では,特徴属性と反実的説明を組み合わせたニューラルネットワークの解釈可能性について述べる。
本手法は,特徴属性法の性能を客観的に評価するために有効であることを示す。
論文 参考訳(メタデータ) (2021-09-28T00:53:34Z) - Counterfactual Evaluation for Explainable AI [21.055319253405603]
そこで本稿では, 文献的推論の観点から, 説明の忠実さを評価する新しい手法を提案する。
離散シナリオと連続シナリオの両方において適切な反事実を見つけるために2つのアルゴリズムを導入し、取得した反事実を用いて忠実度を測定する。
論文 参考訳(メタデータ) (2021-09-05T01:38:49Z) - Concurrent Discrimination and Alignment for Self-Supervised Feature
Learning [52.213140525321165]
既存の自己指導型学習手法は,(1)どの特徴が分離されるべきかを明確に示すこと,あるいは(2)どの特徴が閉じるべきかを明確に示すこと,のいずれかのプリテキストタスクを用いて学習する。
本研究では,識別・調整手法の正の側面を組み合わせて,上記の課題に対処するハイブリッド手法を設計する。
本手法は,識別的予測タスクによってそれぞれ反発とアトラクションのメカニズムを明確に特定し,ペアビュー間の相互情報を同時に最大化する。
確立された9つのベンチマーク実験により,提案モデルが自己監督と移動の既成結果より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-08-19T09:07:41Z) - Towards Unifying Feature Attribution and Counterfactual Explanations:
Different Means to the Same End [17.226134854746267]
本稿では,一組の反実例から特徴帰属説明を生成する手法を提案する。
本報告では, 帰属に基づく説明の妥当性を, その必要性と充足性の観点から評価するために, 対実例をいかに活用するかを示す。
論文 参考訳(メタデータ) (2020-11-10T05:41:43Z) - Learning Disentangled Representations with Latent Variation
Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。
逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。
本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文 参考訳(メタデータ) (2020-07-25T08:54:26Z) - Achieving Equalized Odds by Resampling Sensitive Attributes [13.114114427206678]
等価性の概念をほぼ満足する予測モデルを学習するためのフレキシブルなフレームワークを提案する。
この微分可能な関数は、モデルパラメータを等化奇数に向けて駆動するペナルティとして使用される。
本研究は,予測規則が本性質に反するか否かを検出するための公式な仮説テストを開発する。
論文 参考訳(メタデータ) (2020-06-08T00:18:34Z) - Towards Faithfully Interpretable NLP Systems: How should we define and
evaluate faithfulness? [58.13152510843004]
ディープラーニングベースのNLPモデルの普及に伴い、解釈可能なシステムの必要性が高まっている。
解釈可能性とは何か、そして高品質な解釈を構成するものは何か?
我々は、解釈が満たすべき異なる望ましい基準をより明確に区別し、忠実度基準に焦点を合わせることを求めている。
論文 参考訳(メタデータ) (2020-04-07T20:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。