論文の概要: Evaluating the Robustness of Interpretability Methods through
Explanation Invariance and Equivariance
- arxiv url: http://arxiv.org/abs/2304.06715v2
- Date: Fri, 12 May 2023 17:59:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 15:32:29.240665
- Title: Evaluating the Robustness of Interpretability Methods through
Explanation Invariance and Equivariance
- Title(参考訳): 説明不変性と等分散による解釈可能性法のロバスト性評価
- Authors: Jonathan Crabb\'e, Mihaela van der Schaar
- Abstract要約: 解釈可能性法は、それらの説明が説明されたモデルを忠実に記述した場合にのみ有用である。
特定の対称性群の下で予測が不変であるニューラルネットワークを考える。
- 参考スコア(独自算出の注目度): 95.94432031144716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretability methods are valuable only if their explanations faithfully
describe the explained model. In this work, we consider neural networks whose
predictions are invariant under a specific symmetry group. This includes
popular architectures, ranging from convolutional to graph neural networks. Any
explanation that faithfully explains this type of model needs to be in
agreement with this invariance property. We formalize this intuition through
the notion of explanation invariance and equivariance by leveraging the
formalism from geometric deep learning. Through this rigorous formalism, we
derive (1) two metrics to measure the robustness of any interpretability method
with respect to the model symmetry group; (2) theoretical robustness guarantees
for some popular interpretability methods and (3) a systematic approach to
increase the invariance of any interpretability method with respect to a
symmetry group. By empirically measuring our metrics for explanations of models
associated with various modalities and symmetry groups, we derive a set of 5
guidelines to allow users and developers of interpretability methods to produce
robust explanations.
- Abstract(参考訳): 解釈可能性の手法は、説明が説明されたモデルを忠実に記述している場合にのみ有用である。
本研究では,特定の対称性群の下での予測が不変であるニューラルネットワークについて考察する。
これには畳み込みからグラフニューラルネットワークまで、一般的なアーキテクチャが含まれている。
この種のモデルを忠実に説明する説明は、この不変性と一致する必要がある。
我々は,幾何学的深層学習の形式化を活かし,説明不変性と等分散の概念を通して,この直観を定式化する。
この厳密な形式主義を通じて、(1)モデル対称性群に関する任意の解釈可能性法のロバスト性を測定するための2つの指標、(2)一般的な解釈可能性法の理論的堅牢性を保証すること、(3)対称性群に関する任意の解釈可能性法の不変性を高めるための体系的なアプローチを導出する。
様々なモダリティや対称性グループに関連するモデルの説明のためのメトリクスを実証的に測定することにより、ユーザと開発者が堅牢な説明を作成できる5つのガイドラインを導出する。
関連論文リスト
- Counterfactual explainability of black-box prediction models [4.14360329494344]
ブラックボックス予測モデルに対する対実的説明可能性という新しい概念を提案する。
対物的説明可能性には3つの大きな利点がある。
論文 参考訳(メタデータ) (2024-11-03T16:29:09Z) - Hard to Explain: On the Computational Hardness of In-Distribution Model Interpretation [0.9558392439655016]
機械学習(ML)モデルを解釈する能力はますます不可欠になりつつある。
近年の研究では、様々なモデルの意思決定を説明する計算複雑性を研究することにより、解釈可能性について正式に評価することが可能であることが示されている。
論文 参考訳(メタデータ) (2024-08-07T17:20:52Z) - An Axiomatic Approach to Model-Agnostic Concept Explanations [67.84000759813435]
本稿では、線形性、再帰性、類似性という3つの自然な公理を満たす概念的説明へのアプローチを提案する。
次に、従来の概念的説明手法とのつながりを確立し、それらの意味の異なる意味についての洞察を提供する。
論文 参考訳(メタデータ) (2024-01-12T20:53:35Z) - Nonparametric Partial Disentanglement via Mechanism Sparsity: Sparse
Actions, Interventions and Sparse Temporal Dependencies [58.179981892921056]
この研究は、メカニズムのスパーシティ正則化(英語版)と呼ばれる、アンタングルメントの新たな原理を導入する。
本稿では,潜在要因を同時に学習することで,絡み合いを誘発する表現学習手法を提案する。
学習した因果グラフをスパースに規則化することにより、潜伏因子を復元できることを示す。
論文 参考訳(メタデータ) (2024-01-10T02:38:21Z) - Symmetry Breaking and Equivariant Neural Networks [17.740760773905986]
我々は「緩和された同注入」という新しい概念を導入する。
我々は、この緩和を同変多層パーセプトロン(E-MLP)に組み込む方法を示す。
対称性の破れの関連性は、様々な応用領域で議論される。
論文 参考訳(メタデータ) (2023-12-14T15:06:48Z) - Enriching Disentanglement: From Logical Definitions to Quantitative Metrics [59.12308034729482]
複雑なデータにおける説明的要素を遠ざけることは、データ効率の表現学習にとって有望なアプローチである。
論理的定義と量的指標の関連性を確立し, 理論的に根ざした絡み合いの指標を導出する。
本研究では,非交叉表現の異なる側面を分離することにより,提案手法の有効性を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T08:22:23Z) - In What Ways Are Deep Neural Networks Invariant and How Should We
Measure This? [5.757836174655293]
我々は、これらの特性を損失や精度などの他の指標から切り離す方法で定量化することができる、不変および等分散メトリクスのファミリーを導入する。
本研究では,事前学習した重み付きモデルの初期化がトレーニングモデルの不変性に影響を及ぼすか否かから,トレーニングによって学習した不変性が分布外データに一般化できる範囲まで,ディープラーニングモデルにおける不変性と等価性に関するさまざまな結論を導出する。
論文 参考訳(メタデータ) (2022-10-07T18:43:21Z) - Equivariant Representation Learning via Class-Pose Decomposition [17.032782230538388]
データの対称性に同値な表現を学習するための一般的な方法を提案する。
コンポーネントは、それぞれ固有のデータクラスとポーズに意味的に対応します。
その結果,表現はデータの幾何を捉え,他の同変表現学習フレームワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-07-07T06:55:52Z) - Learning Disentangled Representations with Latent Variation
Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。
逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。
本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文 参考訳(メタデータ) (2020-07-25T08:54:26Z) - Evaluating the Disentanglement of Deep Generative Models through
Manifold Topology [66.06153115971732]
本稿では,生成モデルのみを用いた乱れの定量化手法を提案する。
複数のデータセットにまたがるいくつかの最先端モデルを実証的に評価する。
論文 参考訳(メタデータ) (2020-06-05T20:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。