論文の概要: Defense Against Explanation Manipulation
- arxiv url: http://arxiv.org/abs/2111.04303v1
- Date: Mon, 8 Nov 2021 07:18:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 14:21:31.525521
- Title: Defense Against Explanation Manipulation
- Title(参考訳): 説明操作に対する防御
- Authors: Ruixiang Tang, Ninghao Liu, Fan Yang, Na Zou, Xia Hu
- Abstract要約: 本稿では,モデルの内部説明安定性を向上させるために,Reversarial Training on Explanations (ATEX) と呼ばれる新たなトレーニング手法を提案する。
ATEXは最適化における2階微分の関与を避けるため、モデル予測にのみ要件を課す。
また、モデルのスムーズな説明や、モデルに適用した場合の敵のトレーニングの有効性の改善など、さらなるメリットももたらします。
- 参考スコア(独自算出の注目度): 46.50517346594092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explainable machine learning attracts increasing attention as it improves
transparency of models, which is helpful for machine learning to be trusted in
real applications. However, explanation methods have recently been demonstrated
to be vulnerable to manipulation, where we can easily change a model's
explanation while keeping its prediction constant. To tackle this problem, some
efforts have been paid to use more stable explanation methods or to change
model configurations. In this work, we tackle the problem from the training
perspective, and propose a new training scheme called Adversarial Training on
EXplanations (ATEX) to improve the internal explanation stability of a model
regardless of the specific explanation method being applied. Instead of
directly specifying explanation values over data instances, ATEX only puts
requirement on model predictions which avoids involving second-order
derivatives in optimization. As a further discussion, we also find that
explanation stability is closely related to another property of the model,
i.e., the risk of being exposed to adversarial attack. Through experiments,
besides showing that ATEX improves model robustness against manipulation
targeting explanation, it also brings additional benefits including smoothing
explanations and improving the efficacy of adversarial training if applied to
the model.
- Abstract(参考訳): 説明可能な機械学習は、モデルの透明性が向上し、実際のアプリケーションで機械学習が信頼されるのに役立つため、注目を集めている。
しかし,近年では,予測を一定に保ちながらモデルの説明を容易に変更することができるため,説明手法が操作に脆弱であることが実証されている。
この問題に対処するため、より安定した説明方法の使用やモデル構成の変更に多くの努力が払われている。
本研究は,学習の観点から問題に取り組み,適用されている具体的な説明方法にかかわらず,モデルの内部説明安定性を改善するために,Reversarial Training on Explanations (ATEX) と呼ばれる新たなトレーニング手法を提案する。
データインスタンス上の説明値を直接指定する代わりに、ATEXはモデル予測にのみ要件を課し、最適化に2階微分を含まないようにする。
さらなる議論として、説明安定性はモデルの他の特性、すなわち敵の攻撃にさらされるリスクと密接に関連していることも判明した。
実験を通じて、ATEXは、目的説明の操作に対するモデルロバスト性の改善に加えて、スムーズな説明や、モデルに適用した場合の対人訓練の有効性の改善など、さらなるメリットももたらしている。
関連論文リスト
- Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Enhancing Dynamical System Modeling through Interpretable Machine
Learning Augmentations: A Case Study in Cathodic Electrophoretic Deposition [0.8796261172196743]
本稿では,物理システムのモデリング向上を目的とした包括的データ駆動フレームワークを提案する。
実証的応用として,電顕的電気泳動沈着(EPD)のモデル化を追求する。
論文 参考訳(メタデータ) (2024-01-16T14:58:21Z) - A Protocol for Continual Explanation of SHAP [19.878043419000058]
連続学習におけるSHAP値の説明の振る舞いについて検討する。
本稿では,クラスインクリメンタルなシナリオにおける説明の変化を頑健に評価するための評価プロトコルを提案する。
論文 参考訳(メタデータ) (2023-06-12T16:24:01Z) - AUTOLYCUS: Exploiting Explainable AI (XAI) for Model Extraction Attacks against Interpretable Models [1.8752655643513647]
XAIツールは、モデル抽出攻撃の脆弱性を増大させる可能性がある。
そこで本研究では,ブラックボックス設定下での解釈可能なモデルに対して,新たなリトレーニング(学習)に基づくモデル抽出攻撃フレームワークを提案する。
AUTOLYCUSは非常に効果的で、最先端の攻撃に比べてクエリが大幅に少ないことが示される。
論文 参考訳(メタデータ) (2023-02-04T13:23:39Z) - MACE: An Efficient Model-Agnostic Framework for Counterfactual
Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。
MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。
公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文 参考訳(メタデータ) (2022-05-31T04:57:06Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Feature Attributions and Counterfactual Explanations Can Be Manipulated [32.579094387004346]
本稿では,モデル非依存的特徴属性法を制御するバイアスモデルの設計方法について述べる。
これらの脆弱性は、敵がバイアス付きモデルをデプロイすることを可能にするが、説明はこのバイアスを明らかにしないため、ステークホルダーをモデルの信頼性を損なう。
我々は、CompASやCommunity & Crimeを含む実世界のデータセットの操作を評価し、実際に操作できる説明を見つける。
論文 参考訳(メタデータ) (2021-06-23T17:43:31Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Model extraction from counterfactual explanations [68.8204255655161]
本稿では, 敵が反実的説明によって提供された情報を利用して, 高精度かつ高精度なモデル抽出攻撃を構築する方法を示す。
我々の攻撃は、敵が相手モデルの忠実なコピーを、その偽説明にアクセスして作成することを可能にする。
論文 参考訳(メタデータ) (2020-09-03T19:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。