論文の概要: Explaining by Removing: A Unified Framework for Model Explanation
- arxiv url: http://arxiv.org/abs/2011.14878v2
- Date: Fri, 13 May 2022 03:43:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 23:07:35.751351
- Title: Explaining by Removing: A Unified Framework for Model Explanation
- Title(参考訳): Removingによる説明: モデル記述のための統一フレームワーク
- Authors: Ian Covert, Scott Lundberg, Su-In Lee
- Abstract要約: 削除に基づく説明は、各特徴の影響を定量化するための特徴除去をシミュレートする原則に基づいている。
1) メソッドが特徴を除去する方法,2) メソッドが説明するモデル動作,3) メソッドがそれぞれの特徴の影響を要約する方法,の3つの側面に沿って各メソッドを特徴付けるフレームワークを開発する。
新たに理解された説明手法のクラスは、説明可能性の文献にほとんど見落とされたツールを用いて、豊富なつながりを持つ。
- 参考スコア(独自算出の注目度): 14.50261153230204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Researchers have proposed a wide variety of model explanation approaches, but
it remains unclear how most methods are related or when one method is
preferable to another. We describe a new unified class of methods,
removal-based explanations, that are based on the principle of simulating
feature removal to quantify each feature's influence. These methods vary in
several respects, so we develop a framework that characterizes each method
along three dimensions: 1) how the method removes features, 2) what model
behavior the method explains, and 3) how the method summarizes each feature's
influence. Our framework unifies 26 existing methods, including several of the
most widely used approaches: SHAP, LIME, Meaningful Perturbations, and
permutation tests. This newly understood class of explanation methods has rich
connections that we examine using tools that have been largely overlooked by
the explainability literature. To anchor removal-based explanations in
cognitive psychology, we show that feature removal is a simple application of
subtractive counterfactual reasoning. Ideas from cooperative game theory shed
light on the relationships and trade-offs among different methods, and we
derive conditions under which all removal-based explanations have
information-theoretic interpretations. Through this analysis, we develop a
unified framework that helps practitioners better understand model explanation
tools, and that offers a strong theoretical foundation upon which future
explainability research can build.
- Abstract(参考訳): 研究者は様々なモデル説明手法を提案しているが、ほとんどの方法がどう関連しているか、ある方法が他の方法よりも好ましいのかは定かではない。
本稿では,各特徴量の影響を定量化するために,特徴量除去をシミュレートする原理に基づく新しい統一手法,除去に基づく説明について述べる。
これらの手法は様々な点で異なるため、各手法を3次元に沿って特徴付ける枠組みを開発する。
1) メソッドが機能をどのように削除するか
2)その方法が説明するモデル行動と,
3) それぞれの特徴の影響を要約する方法。
我々のフレームワークは、SHAP、LIME、Meaningful Perturbations、permutation testなど、最も広く使われているアプローチを含む26の既存メソッドを統合する。
新たに理解された説明手法のクラスは、説明可能性の文献にほとんど見落とされたツールを用いて、豊富なつながりを持つ。
認知心理学における削除に基づく説明をアンカーするために,特徴除去は減算的反事実推論の単純な応用であることを示す。
協調ゲーム理論のアイデアは、異なる手法間の関係とトレードオフに光を当て、全ての削除ベースの説明が情報理論的な解釈を持つ条件を導出する。
この分析を通じて,モデル説明ツールの理解を深める統一フレームワークを開発し,今後の説明可能性研究が構築できる強力な理論的基盤を提供する。
関連論文リスト
- An Axiomatic Approach to Model-Agnostic Concept Explanations [67.84000759813435]
本稿では、線形性、再帰性、類似性という3つの自然な公理を満たす概念的説明へのアプローチを提案する。
次に、従来の概念的説明手法とのつながりを確立し、それらの意味の異なる意味についての洞察を提供する。
論文 参考訳(メタデータ) (2024-01-12T20:53:35Z) - Evaluating the Robustness of Interpretability Methods through
Explanation Invariance and Equivariance [72.50214227616728]
解釈可能性法は、それらの説明が説明されたモデルを忠実に記述した場合にのみ有用である。
特定の対称性群の下で予測が不変であるニューラルネットワークを考える。
論文 参考訳(メタデータ) (2023-04-13T17:59:03Z) - Which Explanation Should I Choose? A Function Approximation Perspective
to Characterizing Post hoc Explanations [16.678003262147346]
一般的な説明手法は局所関数近似(LFA)フレームワークの例であることを示す。
本稿では,関数近似の観点に基づく指導原理を提案し,基礎となるモデルを復元した場合に有効となる方法を検討する。
実世界の様々なデータセット、モデルクラス、予測タスクを用いて理論的結果を実証的に検証する。
論文 参考訳(メタデータ) (2022-06-02T19:09:30Z) - Topological Representations of Local Explanations [8.559625821116454]
局所的な説明の集合から単純化された表現を抽出するトポロジに基づくフレームワークを提案する。
我々のフレームワークは、説明可能性技術の違いを確実に識別できるだけでなく、安定した表現も提供できることを実証する。
論文 参考訳(メタデータ) (2022-01-06T17:46:45Z) - Contrastive Explanations for Model Interpretability [77.92370750072831]
分類モデルの対照的説明を生成する手法を提案する。
本手法は潜在空間へのモデル表現の投影に基づいている。
本研究は,モデル決定のより正確できめ細かな解釈性を提供するためのラベルコントラスト的説明の能力に光を当てた。
論文 参考訳(メタデータ) (2021-03-02T00:36:45Z) - Explaining Natural Language Processing Classifiers with Occlusion and
Language Modeling [4.9342793303029975]
自然言語処理分類のための新しい説明手法 OLM を提案する。
OLMは理論的に健全で理解しやすい説明を与える。
我々は,説明法の理論にいくつかの貢献をしている。
論文 参考訳(メタデータ) (2021-01-28T09:44:04Z) - Evaluating Explanations: How much do explanations from the teacher aid
students? [103.05037537415811]
本研究では,説明が生徒の学習モデルを改善する程度を測る学生-教師パラダイムを用いて,説明の価値を定式化する。
説明を評価するための従来の提案とは異なり、我々のアプローチは容易にゲーム化できず、原則付き、スケーラブルで、属性の自動評価を可能にします。
論文 参考訳(メタデータ) (2020-12-01T23:40:21Z) - Feature Removal Is a Unifying Principle for Model Explanation Methods [14.50261153230204]
文献を検証した結果,多くの手法が,削除による説明の共有原理に基づいていることがわかった。
本研究では,3次元にまたがる各手法を特徴付ける,除去に基づく説明のためのフレームワークを開発する。
我々のフレームワークは26の既存メソッドを統一し、最も広く使われているアプローチをいくつか含む。
論文 参考訳(メタデータ) (2020-11-06T22:37:55Z) - Evaluating Explainable AI: Which Algorithmic Explanations Help Users
Predict Model Behavior? [97.77183117452235]
我々は、モデル解釈性に対するアルゴリズム的説明の影響を分離するために、人体テストを実施している。
方法の有効性の明確な証拠はごく少数にみえる。
以上の結果から,説明がシミュラビリティにどのように影響するかの信頼性と包括的評価が得られた。
論文 参考訳(メタデータ) (2020-05-04T20:35:17Z) - There and Back Again: Revisiting Backpropagation Saliency Methods [87.40330595283969]
正当性法は,各入力サンプルの重要度マップを作成することによって,モデルの予測を説明する。
このような手法の一般的なクラスは、信号のバックプロパゲートと結果の勾配の分析に基づいている。
本稿では,そのような手法を統一可能な単一のフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。