論文の概要: Robust and Stable Black Box Explanations
- arxiv url: http://arxiv.org/abs/2011.06169v1
- Date: Thu, 12 Nov 2020 02:29:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 07:26:54.148612
- Title: Robust and Stable Black Box Explanations
- Title(参考訳): 頑丈で安定なブラックボックスの説明
- Authors: Himabindu Lakkaraju, Nino Arsov, Osbert Bastani
- Abstract要約: ブラックボックスモデルの堅牢で安定した説明を生成するための新しいフレームワークを提案する。
我々はこのアルゴリズムを線形モデルと決定セットの形式で説明するためにインスタンス化する。
- 参考スコア(独自算出の注目度): 31.05743211871823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As machine learning black boxes are increasingly being deployed in real-world
applications, there has been a growing interest in developing post hoc
explanations that summarize the behaviors of these black boxes. However,
existing algorithms for generating such explanations have been shown to lack
stability and robustness to distribution shifts. We propose a novel framework
for generating robust and stable explanations of black box models based on
adversarial training. Our framework optimizes a minimax objective that aims to
construct the highest fidelity explanation with respect to the worst-case over
a set of adversarial perturbations. We instantiate this algorithm for
explanations in the form of linear models and decision sets by devising the
required optimization procedures. To the best of our knowledge, this work makes
the first attempt at generating post hoc explanations that are robust to a
general class of adversarial perturbations that are of practical interest.
Experimental evaluation with real-world and synthetic datasets demonstrates
that our approach substantially improves robustness of explanations without
sacrificing their fidelity on the original data distribution.
- Abstract(参考訳): 機械学習のブラックボックスが現実世界のアプリケーションにますます導入されるにつれて、これらのブラックボックスの振る舞いを要約したポストホックな説明の開発への関心が高まっている。
しかし、そのような説明を生成する既存のアルゴリズムは、分散シフトに対する安定性と堅牢性が欠如していることが示されている。
本稿では,ブラックボックスモデルの安定的かつ堅牢な説明を生成するための新しいフレームワークを提案する。
本フレームワークは,一組の対向摂動に対して最悪の場合に対して,最も忠実度の高い説明を構築することを目的としたミニマックス目標を最適化する。
最適化手順を考案し,線形モデルと決定集合の形で,このアルゴリズムを説明のためにインスタンス化する。
我々の知識を最大限に活用するために、本研究は、現実的な関心を持つ一般の対向的摂動に頑健なポストホックな説明を生成するための最初の試みである。
実世界および合成データセットを用いた実験評価により,本手法は,原データ分布の忠実性を犠牲にすることなく,説明の頑健性を大幅に向上できることを示した。
関連論文リスト
- Rigorous Probabilistic Guarantees for Robust Counterfactual Explanations [80.86128012438834]
モデルシフトに対する反ファクトの堅牢性を計算することはNP完全であることを示す。
本稿では,頑健性の厳密な推定を高い保証で実現する新しい確率論的手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:13:11Z) - Discriminative Feature Attributions: Bridging Post Hoc Explainability
and Inherent Interpretability [29.459228981179674]
ポストホックの説明は、基礎となるタスクにとって重要でない、あるいは差別的でない機能に、誤って高い重要性がある。
一方、モデルアーキテクチャに説明を明示的にエンコードすることでこれらの問題を回避することができる。
本研究では,ディストラクタ消去に頑健なブラックボックスモデルを適応させる手法であるディストラクタ消去調整法(DiET)を提案する。
論文 参考訳(メタデータ) (2023-07-27T17:06:02Z) - Learning with Explanation Constraints [91.23736536228485]
我々は、説明がモデルの学習をどのように改善するかを分析するための学習理論フレームワークを提供する。
我々は,多数の合成および実世界の実験に対して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T15:06:47Z) - Don't Explain Noise: Robust Counterfactuals for Randomized Ensembles [50.81061839052459]
我々は確率論的問題として、堅牢な対実的説明の生成を定式化する。
アンサンブルモデルのロバスト性とベース学習者のロバスト性との関係を示す。
本手法は, 反実的説明から初期観測までの距離をわずかに増加させるだけで, 高いロバスト性を実現する。
論文 参考訳(メタデータ) (2022-05-27T17:28:54Z) - Interpretation of Black Box NLP Models: A Survey [0.0]
摂動に基づくポストホックの説明は、機械学習モデルの構築後に解釈するために広く使われているアプローチである。
本稿では,中心極限定理に基づく仮説テストフレームワークを用いて,解析結果の安定性を保証するのに必要な摂動点数を決定することを提案する。
論文 参考訳(メタデータ) (2022-03-31T14:54:35Z) - On the Objective Evaluation of Post Hoc Explainers [10.981508361941335]
機械学習研究の最近の傾向は、それらがブラックボックスであると考えられる程度に、ますます複雑化しているアルゴリズムにつながっている。
意思決定の不透明度を低減するため、そのようなモデルの内部動作を人間に理解可能な方法で解釈する手法が提案されている。
本稿では,モデルの加法構造から直接導出される地底真理に基づくポストホック説明器の評価のための枠組みを提案する。
論文 参考訳(メタデータ) (2021-06-15T19:06:51Z) - S-LIME: Stabilized-LIME for Model Explanation [7.479279851480736]
摂動に基づくポストホックの説明は、機械学習モデルの構築後に解釈するために広く使われているアプローチである。
本稿では,中心極限定理に基づく仮説テストフレームワークを用いて,解析結果の安定性を保証するのに必要な摂動点数を決定することを提案する。
論文 参考訳(メタデータ) (2021-06-15T04:24:59Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z) - Model extraction from counterfactual explanations [68.8204255655161]
本稿では, 敵が反実的説明によって提供された情報を利用して, 高精度かつ高精度なモデル抽出攻撃を構築する方法を示す。
我々の攻撃は、敵が相手モデルの忠実なコピーを、その偽説明にアクセスして作成することを可能にする。
論文 参考訳(メタデータ) (2020-09-03T19:02:55Z) - Reliable Post hoc Explanations: Modeling Uncertainty in Explainability [44.9824285459365]
ブラックボックスの説明は、高レベルの設定でモデルの信頼性を確立するために、ますます採用されている。
先行研究では、最先端の技術が生み出す説明は一貫性がなく不安定であり、その正確性や信頼性についての洞察はほとんど得られないことが示されている。
局所的な説明と関連する不確実性を生成するための新しいベイズ的枠組みを開発する。
論文 参考訳(メタデータ) (2020-08-11T22:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。