論文の概要: Towards a Theory of Faithfulness: Faithful Explanations of
Differentiable Classifiers over Continuous Data
- arxiv url: http://arxiv.org/abs/2205.09620v1
- Date: Thu, 19 May 2022 15:34:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 21:02:51.835757
- Title: Towards a Theory of Faithfulness: Faithful Explanations of
Differentiable Classifiers over Continuous Data
- Title(参考訳): 忠実性の理論に向けて:連続データ上の微分可能分類器の忠実な説明
- Authors: Nico Potyka, Xiang Yin, Francesca Toni
- Abstract要約: 特徴帰属法に対する忠実性の形式的定義を2つ提案する。
定性的忠実性は、スコアがモデル上の特徴の真の定性的効果(正対負)を反映することを要求する。
実験により、一般的な帰属法では、データが連続している環境では、忠実な説明が得られないことを実証した。
- 参考スコア(独自算出の注目度): 17.9926469947157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is broad agreement in the literature that explanation methods should be
faithful to the model that they explain, but faithfulness remains a rather
vague term. We revisit faithfulness in the context of continuous data and
propose two formal definitions of faithfulness for feature attribution methods.
Qualitative faithfulness demands that scores reflect the true qualitative
effect (positive vs. negative) of the feature on the model and quanitative
faithfulness that the magnitude of scores reflect the true quantitative effect.
We discuss under which conditions these requirements can be satisfied to which
extent (local vs global). As an application of the conceptual idea, we look at
differentiable classifiers over continuous data and characterize
Gradient-scores as follows: every qualitatively faithful feature attribution
method is qualitatively equivalent to Gradient-scores. Furthermore, if an
attribution method is quantitatively faithful in the sense that changes of the
output of the classifier are proportional to the scores of features, then it is
either equivalent to gradient-scoring or it is based on an inferior
approximation of the classifier. To illustrate the practical relevance of the
theory, we experimentally demonstrate that popular attribution methods can fail
to give faithful explanations in the setting where the data is continuous and
the classifier differentiable.
- Abstract(参考訳): 文献には説明方法が説明のモデルに忠実であるべきだという広い一致があるが、忠実さはいまだに曖昧な用語である。
連続データの文脈で忠実性を再検討し,特徴帰属法に対する忠実性に関する2つの形式的定義を提案する。
定性的忠実性は、スコアがモデル上の特徴の真の質的効果(正対負)を反映し、スコアの大きさが真の量的効果を反映することを要求する。
我々は、これらの要件をどの程度まで(ローカル対グローバル)満たせるかについて議論する。
概念概念の応用として、連続データ上の微分可能な分類器を考察し、グラデーションスコアを次のように特徴づける: 定性的に忠実な特徴帰属法はすべて、定性的にグラデーションスコアと等価である。
さらに、分類器の出力の変化が特徴のスコアに比例するという意味で、帰属法が定量的に忠実であるならば、その分類器の劣等な近似に基づいているか、または、グラデーション・スコーリングと等価である。
この理論の実際的妥当性を説明するために,一般的な帰属法ではデータが連続的かつ分類子微分可能な設定において忠実な説明ができないことを実験的に証明する。
関連論文リスト
- Unlearning-based Neural Interpretations [51.99182464831169]
静的関数を用いて定義される現在のベースラインは、バイアスがあり、脆弱であり、操作可能であることを示す。
UNIは、学習不可能で、偏りがなく、適応的なベースラインを計算し、入力を最も急な上昇の未学習方向に向けて摂動させることを提案する。
論文 参考訳(メタデータ) (2024-10-10T16:02:39Z) - Enriching Disentanglement: From Logical Definitions to Quantitative Metrics [59.12308034729482]
複雑なデータにおける説明的要素を遠ざけることは、データ効率の表現学習にとって有望なアプローチである。
論理的定義と量的指標の関連性を確立し, 理論的に根ざした絡み合いの指標を導出する。
本研究では,非交叉表現の異なる側面を分離することにより,提案手法の有効性を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T08:22:23Z) - Measuring Implicit Bias Using SHAP Feature Importance and Fuzzy
Cognitive Maps [1.9739269019020032]
本稿では,特徴重要度の概念と暗黙バイアスをパターン分類の文脈で統合する。
保護された特徴に対するバイアスの量は、その特徴が数値的にか分類的に符号化されているかによって異なるかもしれない。
論文 参考訳(メタデータ) (2023-05-16T12:31:36Z) - Comparing Explanation Methods for Traditional Machine Learning Models
Part 2: Quantifying Model Explainability Faithfulness and Improvements with
Dimensionality Reduction [0.0]
忠実さ」または「忠実さ」とは、割り当てられた特徴の重要性と、その特徴のモデル性能への貢献の対応を指す。
本研究は,関係する特徴を限定することによる説明可能性の向上と,異なる説明可能性手法の相対的忠実性を知ることから,初めて説明可能性の向上を定量化した1つである。
論文 参考訳(メタデータ) (2022-11-18T17:15:59Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Discriminative Attribution from Counterfactuals [64.94009515033984]
本稿では,特徴属性と反実的説明を組み合わせたニューラルネットワークの解釈可能性について述べる。
本手法は,特徴属性法の性能を客観的に評価するために有効であることを示す。
論文 参考訳(メタデータ) (2021-09-28T00:53:34Z) - Counterfactual Evaluation for Explainable AI [21.055319253405603]
そこで本稿では, 文献的推論の観点から, 説明の忠実さを評価する新しい手法を提案する。
離散シナリオと連続シナリオの両方において適切な反事実を見つけるために2つのアルゴリズムを導入し、取得した反事実を用いて忠実度を測定する。
論文 参考訳(メタデータ) (2021-09-05T01:38:49Z) - Towards Unifying Feature Attribution and Counterfactual Explanations:
Different Means to the Same End [17.226134854746267]
本稿では,一組の反実例から特徴帰属説明を生成する手法を提案する。
本報告では, 帰属に基づく説明の妥当性を, その必要性と充足性の観点から評価するために, 対実例をいかに活用するかを示す。
論文 参考訳(メタデータ) (2020-11-10T05:41:43Z) - Learning Disentangled Representations with Latent Variation
Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。
逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。
本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文 参考訳(メタデータ) (2020-07-25T08:54:26Z) - Achieving Equalized Odds by Resampling Sensitive Attributes [13.114114427206678]
等価性の概念をほぼ満足する予測モデルを学習するためのフレキシブルなフレームワークを提案する。
この微分可能な関数は、モデルパラメータを等化奇数に向けて駆動するペナルティとして使用される。
本研究は,予測規則が本性質に反するか否かを検出するための公式な仮説テストを開発する。
論文 参考訳(メタデータ) (2020-06-08T00:18:34Z) - Towards Faithfully Interpretable NLP Systems: How should we define and
evaluate faithfulness? [58.13152510843004]
ディープラーニングベースのNLPモデルの普及に伴い、解釈可能なシステムの必要性が高まっている。
解釈可能性とは何か、そして高品質な解釈を構成するものは何か?
我々は、解釈が満たすべき異なる望ましい基準をより明確に区別し、忠実度基準に焦点を合わせることを求めている。
論文 参考訳(メタデータ) (2020-04-07T20:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。