論文の概要: Adversarial Attacks on the Interpretation of Neuron Activation
Maximization
- arxiv url: http://arxiv.org/abs/2306.07397v1
- Date: Mon, 12 Jun 2023 19:54:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 15:58:13.105745
- Title: Adversarial Attacks on the Interpretation of Neuron Activation
Maximization
- Title(参考訳): ニューロン活性化最大化の解釈に対する敵対的攻撃
- Authors: Geraldin Nanfack, Alexander Fulleringer, Jonathan Marty, Michael
Eickenberg, Eugene Belilovsky
- Abstract要約: アクティベーション最大化アプローチは、訓練されたディープラーニングモデルの解釈と解析に使用される。
本研究では,解釈を欺くためにモデルを操作する敵の概念を考察する。
- 参考スコア(独自算出の注目度): 70.5472799454224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The internal functional behavior of trained Deep Neural Networks is
notoriously difficult to interpret. Activation-maximization approaches are one
set of techniques used to interpret and analyze trained deep-learning models.
These consist in finding inputs that maximally activate a given neuron or
feature map. These inputs can be selected from a data set or obtained by
optimization. However, interpretability methods may be subject to being
deceived. In this work, we consider the concept of an adversary manipulating a
model for the purpose of deceiving the interpretation. We propose an
optimization framework for performing this manipulation and demonstrate a
number of ways that popular activation-maximization interpretation techniques
associated with CNNs can be manipulated to change the interpretations, shedding
light on the reliability of these methods.
- Abstract(参考訳): 訓練されたディープニューラルネットワークの内部機能行動は、解釈が難しいことで悪名高い。
アクティベーション最大化アプローチは、トレーニングされたディープラーニングモデルの解釈と解析に使用される一連のテクニックである。
これらは、与えられたニューロンまたは特徴マップを最大に活性化する入力を見つけることからなる。
これらの入力はデータセットから選択したり、最適化によって得られる。
しかし、解釈可能性の方法が騙されることがある。
本研究では,解釈を欺く目的でモデルを操作する敵の概念を考える。
この操作を行うための最適化フレームワークを提案し、CNNに付随するアクティベーション-最大化解釈手法を操作して解釈を変更できることを実証し、これらの手法の信頼性に光を当てる。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Explaining Explainability: Towards Deeper Actionable Insights into Deep
Learning through Second-order Explainability [70.60433013657693]
2階説明可能なAI(SOXAI)は、最近インスタンスレベルからデータセットレベルまで説明可能なAI(XAI)を拡張するために提案されている。
そこで本研究では,SOXAIの動作可能な洞察に基づくトレーニングセットから無関係な概念を除外することで,モデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T23:24:01Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Interpretable Social Anchors for Human Trajectory Forecasting in Crowds [84.20437268671733]
本研究では,人混みの軌跡を予測できるニューラルネットワークシステムを提案する。
解釈可能なルールベースのインテントを学び、ニューラルネットワークの表現可能性を利用してシーン固有の残差をモデル化する。
私たちのアーキテクチャは、インタラクション中心のベンチマークTrajNet++でテストされています。
論文 参考訳(メタデータ) (2021-05-07T09:22:34Z) - Explainability-aided Domain Generalization for Image Classification [0.0]
説明可能性文献から手法やアーキテクチャを適用することで、ドメインの一般化という困難な課題に対して最先端のパフォーマンスを達成できることを示す。
そこで我々は,勾配に基づくクラスアクティベーションマップを用いて学習中にネットワークが指導を受ける手法であるDivCAMを含む新しいアルゴリズムを開発し,多様な識別機能に焦点をあてる。
これらの手法は、説明可能性に加えて競合性能を提供するため、深層ニューラルネットワークアーキテクチャのロバスト性を改善するツールとして使用できると論じる。
論文 参考訳(メタデータ) (2021-04-05T02:27:01Z) - Ada-SISE: Adaptive Semantic Input Sampling for Efficient Explanation of
Convolutional Neural Networks [26.434705114982584]
畳み込みニューラルネットワークの効率的な解釈手法を提案する。
実験の結果,提案手法は実行時間を最大30%削減できることがわかった。
論文 参考訳(メタデータ) (2021-02-15T19:10:00Z) - Towards Robust Explanations for Deep Neural Networks [5.735035463793008]
モデルの最大操作性に関する境界を導出するための統一理論フレームワークを開発する。
操作に対する堅牢性を高める3つの異なる技術を紹介します。
論文 参考訳(メタデータ) (2020-12-18T18:29:09Z) - Making Neural Networks Interpretable with Attribution: Application to
Implicit Signals Prediction [11.427019313283997]
本稿では,属性処理のための解釈可能なディープニューラルネットワークの新たな定式化を提案する。
マスク付きの重量を使って隠れた特徴を深く評価し、いくつかの入力制限されたサブネットワークに分割し、専門家の強化された混合として訓練する。
論文 参考訳(メタデータ) (2020-08-26T06:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。