論文の概要: Discriminative Feature Attributions: Bridging Post Hoc Explainability
and Inherent Interpretability
- arxiv url: http://arxiv.org/abs/2307.15007v2
- Date: Thu, 15 Feb 2024 20:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 20:45:04.067760
- Title: Discriminative Feature Attributions: Bridging Post Hoc Explainability
and Inherent Interpretability
- Title(参考訳): 差別的特徴属性: ポストホック説明可能性と創発的解釈可能性
- Authors: Usha Bhalla, Suraj Srinivas, Himabindu Lakkaraju
- Abstract要約: ポストホックの説明は、基礎となるタスクにとって重要でない、あるいは差別的でない機能に、誤って高い重要性がある。
一方、モデルアーキテクチャに説明を明示的にエンコードすることでこれらの問題を回避することができる。
本研究では,ディストラクタ消去に頑健なブラックボックスモデルを適応させる手法であるディストラクタ消去調整法(DiET)を提案する。
- 参考スコア(独自算出の注目度): 29.459228981179674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increased deployment of machine learning models in various
real-world applications, researchers and practitioners alike have emphasized
the need for explanations of model behaviour. To this end, two broad strategies
have been outlined in prior literature to explain models. Post hoc explanation
methods explain the behaviour of complex black-box models by identifying
features critical to model predictions; however, prior work has shown that
these explanations may not be faithful, in that they incorrectly attribute high
importance to features that are unimportant or non-discriminative for the
underlying task. Inherently interpretable models, on the other hand, circumvent
these issues by explicitly encoding explanations into model architecture,
meaning their explanations are naturally faithful, but they often exhibit poor
predictive performance due to their limited expressive power. In this work, we
identify a key reason for the lack of faithfulness of feature attributions: the
lack of robustness of the underlying black-box models, especially to the
erasure of unimportant distractor features in the input. To address this issue,
we propose Distractor Erasure Tuning (DiET), a method that adapts black-box
models to be robust to distractor erasure, thus providing discriminative and
faithful attributions. This strategy naturally combines the ease of use of post
hoc explanations with the faithfulness of inherently interpretable models. We
perform extensive experiments on semi-synthetic and real-world datasets and
show that DiET produces models that (1) closely approximate the original
black-box models they are intended to explain, and (2) yield explanations that
match approximate ground truths available by construction. Our code is made
public at https://github.com/AI4LIFE-GROUP/DiET.
- Abstract(参考訳): 機械学習モデルをさまざまな現実世界のアプリケーションに展開する機会が増えるにつれ、研究者や実践者たちもモデル行動の説明の必要性を強調している。
この目的のために、モデルを説明するための2つの幅広い戦略が以前の文献で概説されている。
ポストホックな説明手法は、モデル予測に不可欠な特徴を特定することによって、複雑なブラックボックスモデルの振る舞いを説明するが、以前の研究では、これらの説明が忠実ではない可能性があることが示されている。
一方、直観的に解釈可能なモデルは、モデルアーキテクチャに説明を明示的にエンコードすることでこれらの問題を回避し、その説明は自然に忠実であるが、表現力の制限により予測性能が劣ることが多い。
本研究では,下位のブラックボックスモデルのロバスト性の欠如,特にインプット内の不注意な不注意な特徴の消去について,特徴属性の忠実さの欠如の主な理由を明らかにする。
この問題に対処するために, ブラックボックスモデルにディストラクタ消去に頑健に適応し, 差別的で忠実な属性を提供する方法であるDistractor Erasure Tuning (DiET)を提案する。
この戦略は、ポストホックな説明の使いやすさと本質的に解釈可能なモデルの忠実さを自然に組み合わせている。
半合成および実世界のデータセットに関する広範囲な実験を行い,(1)説明を意図したブラックボックスモデルに密接に近似したモデルを作成し,(2)構築時に得られる近似基底真理に一致する説明を与える。
私たちのコードはhttps://github.com/AI4LIFE-GROUP/DiETで公開されています。
関連論文リスト
- DISCRET: Synthesizing Faithful Explanations For Treatment Effect Estimation [21.172795461188578]
我々は,各サンプルに対して忠実で規則に基づく説明を合成する自己解釈型ITTフレームワークdisCRETを提案する。
DISCRETの背景にある重要な洞察は、説明が2つのデータベースクエリとして機能し、類似したサンプルのサブグループを識別できるということである。
大規模な探索空間からこれらの説明を効率的に合成する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-02T04:01:08Z) - Black-Box Tuning of Vision-Language Models with Effective Gradient
Approximation [71.21346469382821]
ブラックボックスモデルに対するテキストプロンプト最適化と出力特徴適応のための協調ブラックボックスチューニング(CBBT)を導入する。
CBBTは11のダウンストリームベンチマークで広範囲に評価され、既存のブラックボックスVL適応法と比較して顕著に改善されている。
論文 参考訳(メタデータ) (2023-12-26T06:31:28Z) - Faithful Model Explanations through Energy-Constrained Conformal
Counterfactuals [16.67633872254042]
ブラックボックスモデルを説明するための直感的で直感的な説明を提供する。
既存の作業は主に、入力データの分散方法を学ぶために代理モデルに依存しています。
そこで本研究では,モデルが許容する範囲でのみ有効な,エネルギー制約のあるコンフォーマル・カウンセリングを生成するための新しいアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-17T08:24:44Z) - BELLA: Black box model Explanations by Local Linear Approximations [10.05944106581306]
我々は、回帰ブラックボックスモデルの個々の予測を説明するために、決定論的モデルに依存しないポストホックアプローチであるBELLAを提案する。
BELLAは特徴空間で訓練された線形モデルという形で説明を提供する。
BELLAは事実と反事実の両方を説明することができる。
論文 参考訳(メタデータ) (2023-05-18T21:22:23Z) - Learning with Explanation Constraints [91.23736536228485]
我々は、説明がモデルの学習をどのように改善するかを分析するための学習理論フレームワークを提供する。
我々は,多数の合成および実世界の実験に対して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T15:06:47Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Contrastive Explanations for Model Interpretability [77.92370750072831]
分類モデルの対照的説明を生成する手法を提案する。
本手法は潜在空間へのモデル表現の投影に基づいている。
本研究は,モデル決定のより正確できめ細かな解釈性を提供するためのラベルコントラスト的説明の能力に光を当てた。
論文 参考訳(メタデータ) (2021-03-02T00:36:45Z) - The Struggles of Feature-Based Explanations: Shapley Values vs. Minimal
Sufficient Subsets [61.66584140190247]
機能に基づく説明は、自明なモデルでも問題を引き起こすことを示す。
そこで本研究では,2つの一般的な説明書クラスであるシェープリー説明書と十分最小限の部分集合説明書が,基本的に異なる基底的説明書のタイプをターゲットにしていることを示す。
論文 参考訳(メタデータ) (2020-09-23T09:45:23Z) - Model extraction from counterfactual explanations [68.8204255655161]
本稿では, 敵が反実的説明によって提供された情報を利用して, 高精度かつ高精度なモデル抽出攻撃を構築する方法を示す。
我々の攻撃は、敵が相手モデルの忠実なコピーを、その偽説明にアクセスして作成することを可能にする。
論文 参考訳(メタデータ) (2020-09-03T19:02:55Z) - Explainable Deep Modeling of Tabular Data using TableGraphNet [1.376408511310322]
付加的特徴属性の形で説明可能な予測を生成する新しいアーキテクチャを提案する。
説明可能なモデルはブラックボックスモデルと同じレベルの性能が得られることを示す。
論文 参考訳(メタデータ) (2020-02-12T20:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。