論文の概要: On the Robustness of Explanations of Deep Neural Network Models: A
Survey
- arxiv url: http://arxiv.org/abs/2211.04780v1
- Date: Wed, 9 Nov 2022 10:14:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 16:39:43.697338
- Title: On the Robustness of Explanations of Deep Neural Network Models: A
Survey
- Title(参考訳): ディープニューラルネットワークモデルの記述のロバスト性について:サーベイ
- Authors: Amlan Jyoti, Karthik Balaji Ganesh, Manoj Gayala, Nandita Lakshmi
Tunuguntla, Sandesh Kamath, Vineeth N Balasubramanian
- Abstract要約: 本稿では,Deep Neural Network(DNN)モデルの説明を研究・理解・攻撃・防衛する手法の総合的な調査を行う。
また,説明手法の評価や属性攻撃,防衛手法の詳細な検討を行う。
- 参考スコア(独自算出の注目度): 14.940679892694089
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Explainability has been widely stated as a cornerstone of the responsible and
trustworthy use of machine learning models. With the ubiquitous use of Deep
Neural Network (DNN) models expanding to risk-sensitive and safety-critical
domains, many methods have been proposed to explain the decisions of these
models. Recent years have also seen concerted efforts that have shown how such
explanations can be distorted (attacked) by minor input perturbations. While
there have been many surveys that review explainability methods themselves,
there has been no effort hitherto to assimilate the different methods and
metrics proposed to study the robustness of explanations of DNN models. In this
work, we present a comprehensive survey of methods that study, understand,
attack, and defend explanations of DNN models. We also present a detailed
review of different metrics used to evaluate explanation methods, as well as
describe attributional attack and defense methods. We conclude with lessons and
take-aways for the community towards ensuring robust explanations of DNN model
predictions.
- Abstract(参考訳): 説明可能性は、機械学習モデルの責任と信頼に値する使用の基盤として広く述べられている。
Deep Neural Network(DNN)モデルのユビキタスな使用により、リスクに敏感で安全に重要なドメインに拡張され、これらのモデルの決定を説明する多くの方法が提案されている。
近年では、このような説明を小さな入力の摂動によって歪め(攻撃)ることができることを示す努力も行われている。
説明可能性の方法自体をレビューする調査は数多く行われているが、DNNモデルの説明の堅牢性を研究するために提案された様々な方法とメトリクスを同化するための努力は、これまでなかった。
本研究では,dnnモデルの説明を研究し,理解し,攻撃し,防御する手法に関する総合的な調査を行う。
また,説明方法の評価に用いるさまざまな指標の詳細なレビューや,帰属攻撃や防御手法について述べる。
我々は、DNNモデル予測の堅牢な説明を保証するための教訓とコミュニティへの取り組みを締めくくる。
関連論文リスト
- Explainable Graph Neural Networks Under Fire [69.15708723429307]
グラフニューラルネットワーク(GNN)は通常、複雑な計算挙動とグラフの抽象的性質のために解釈性に欠ける。
ほとんどのGNN説明法は、ポストホックな方法で動作し、重要なエッジと/またはノードの小さなサブセットの形で説明を提供する。
本稿では,これらの説明が信頼できないことを実証する。GNNの一般的な説明手法は,敵対的摂動に強い影響を受けやすいことが判明した。
論文 参考訳(メタデータ) (2024-06-10T16:09:16Z) - Uncertainty Quantification for Gradient-based Explanations in Neural Networks [6.9060054915724]
ニューラルネットワークの説明の不確実性を確認するパイプラインを提案する。
このパイプラインを使用して、CIFAR-10、FER+、California Housingデータセットの説明分布を生成する。
修正画素挿入/削除のメトリクスを計算し、生成した説明の質を評価する。
論文 参考訳(メタデータ) (2024-03-25T21:56:02Z) - Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - Learning with Explanation Constraints [91.23736536228485]
我々は、説明がモデルの学習をどのように改善するかを分析するための学習理論フレームワークを提供する。
我々は,多数の合成および実世界の実験に対して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T15:06:47Z) - Towards Faithful Model Explanation in NLP: A Survey [48.690624266879155]
エンドツーエンドのニューラルネットワーク処理(NLP)モデルを理解するのは非常に難しい。
モデル説明の一側面は忠実さであり、すなわち、説明はモデルの予測の背後にある推論過程を正確に表現すべきである。
我々は,NLPにおける110以上のモデル説明法を忠実度レンズを用いてレビューした。
論文 参考訳(メタデータ) (2022-09-22T21:40:51Z) - Unsupervised Detection of Adversarial Examples with Model Explanations [0.6091702876917279]
本稿では,モデル動作を説明するために開発された手法を用いて,逆例を検出するための簡易かつ効果的な手法を提案する。
MNIST手書きデータセットを用いて評価したところ,本手法は高い信頼度で敵のサンプルを検出することができることがわかった。
論文 参考訳(メタデータ) (2021-07-22T06:54:18Z) - Feature Attributions and Counterfactual Explanations Can Be Manipulated [32.579094387004346]
本稿では,モデル非依存的特徴属性法を制御するバイアスモデルの設計方法について述べる。
これらの脆弱性は、敵がバイアス付きモデルをデプロイすることを可能にするが、説明はこのバイアスを明らかにしないため、ステークホルダーをモデルの信頼性を損なう。
我々は、CompASやCommunity & Crimeを含む実世界のデータセットの操作を評価し、実際に操作できる説明を見つける。
論文 参考訳(メタデータ) (2021-06-23T17:43:31Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Explainability in Graph Neural Networks: A Taxonomic Survey [42.95574260417341]
グラフニューラルネットワーク(gnns)とその説明能力は急速に発展している。
GNNの説明可能性メソッドの統一された処理も、評価のための標準的なベンチマークとテストベッドもありません。
本研究はgnn説明可能性の統一的な方法論的処理と評価のための標準テストベッドを提供する。
論文 参考訳(メタデータ) (2020-12-31T04:34:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。