論文の概要: Manipulating Feature Visualizations with Gradient Slingshots
- arxiv url: http://arxiv.org/abs/2401.06122v2
- Date: Wed, 10 Jul 2024 16:08:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 21:59:38.342972
- Title: Manipulating Feature Visualizations with Gradient Slingshots
- Title(参考訳): グラディエント・スリングショットによる特徴可視化の操作
- Authors: Dilyara Bareeva, Marina M. -C. Höhne, Alexander Warnecke, Lukas Pirch, Klaus-Robert Müller, Konrad Rieck, Kirill Bykov,
- Abstract要約: 本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
- 参考スコア(独自算出の注目度): 54.31109240020007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Neural Networks (DNNs) are capable of learning complex and versatile representations, however, the semantic nature of the learned concepts remains unknown. A common method used to explain the concepts learned by DNNs is Feature Visualization (FV), which generates a synthetic input signal that maximally activates a particular neuron in the network. In this paper, we investigate the vulnerability of this approach to adversarial model manipulations and introduce a novel method for manipulating FV without significantly impacting the model's decision-making process. The key distinction of our proposed approach is that it does not alter the model architecture. We evaluate the effectiveness of our method on several neural network models and demonstrate its capabilities to hide the functionality of arbitrarily chosen neurons by masking the original explanations of neurons with chosen target explanations during model auditing.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は複雑で汎用的な表現を学習することができるが、学習概念の意味的性質はいまだ不明である。
DNNが学んだ概念を説明するのに使われる一般的な方法は、ネットワーク内の特定のニューロンを最大限に活性化する合成入力信号を生成する特徴可視化(FV)である。
本稿では,本手法の逆モデル操作に対する脆弱性について検討し,モデル決定過程に大きな影響を及ぼすことなくFVを操作する新しい手法を提案する。
提案したアプローチの重要な違いは、モデルアーキテクチャを変更しないことです。
提案手法の有効性をいくつかのニューラルネットワークモデルで評価し, モデル監査中に選択された目的説明でニューロンの本来の説明を隠蔽することにより, 任意の選択されたニューロンの機能を隠す能力を示す。
関連論文リスト
- Automatic Discovery of Visual Circuits [66.99553804855931]
本稿では,視覚モデルにおける視覚的概念の認識の基盤となる計算グラフのサブグラフを抽出するスケーラブルな手法について検討する。
提案手法は, モデル出力に因果的に影響を及ぼす回路を抽出し, これらの回路を編集することで, 敵攻撃から大きな事前学習モデルを守ることができることがわかった。
論文 参考訳(メタデータ) (2024-04-22T17:00:57Z) - Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - Automated Natural Language Explanation of Deep Visual Neurons with Large
Models [43.178568768100305]
本稿では,大きな基礎モデルを持つニューロンの意味的説明を生成するための,新しいポストホックフレームワークを提案する。
我々のフレームワークは、様々なモデルアーキテクチャやデータセット、自動化されたスケーラブルなニューロン解釈と互換性があるように設計されています。
論文 参考訳(メタデータ) (2023-10-16T17:04:51Z) - Concept backpropagation: An Explainable AI approach for visualising
learned concepts in neural network models [0.0]
本稿では,ある概念を表す情報が与えられたニューラルネットワークモデルにどのように内在化されているかを分析する方法として,Emphconcept backpropagationという概念検出手法の拡張を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:21:13Z) - Adversarial Attacks on the Interpretation of Neuron Activation
Maximization [70.5472799454224]
アクティベーション最大化アプローチは、訓練されたディープラーニングモデルの解釈と解析に使用される。
本研究では,解釈を欺くためにモデルを操作する敵の概念を考察する。
論文 参考訳(メタデータ) (2023-06-12T19:54:33Z) - On Modifying a Neural Network's Perception [3.42658286826597]
本研究では,人間の定義した概念に対して,人工ニューラルネットワークが知覚しているものを修正する手法を提案する。
提案手法を異なるモデルで検証し、実行された操作がモデルによって適切に解釈されているかどうかを評価し、それらに対してどのように反応するかを解析する。
論文 参考訳(メタデータ) (2023-03-05T12:09:37Z) - ConCerNet: A Contrastive Learning Based Framework for Automated
Conservation Law Discovery and Trustworthy Dynamical System Prediction [82.81767856234956]
本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。
本手法は, 座標誤差と保存量の両方において, ベースラインニューラルネットワークよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-11T21:07:30Z) - EINNs: Epidemiologically-Informed Neural Networks [75.34199997857341]
本稿では,疫病予測のための新しい物理インフォームドニューラルネットワークEINNを紹介する。
メカニスティックモデルによって提供される理論的柔軟性と、AIモデルによって提供されるデータ駆動表現性の両方を活用する方法について検討する。
論文 参考訳(メタデータ) (2022-02-21T18:59:03Z) - Ada-SISE: Adaptive Semantic Input Sampling for Efficient Explanation of
Convolutional Neural Networks [26.434705114982584]
畳み込みニューラルネットワークの効率的な解釈手法を提案する。
実験の結果,提案手法は実行時間を最大30%削減できることがわかった。
論文 参考訳(メタデータ) (2021-02-15T19:10:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。