論文の概要: Manipulating Feature Visualizations with Gradient Slingshots
- arxiv url: http://arxiv.org/abs/2401.06122v1
- Date: Thu, 11 Jan 2024 18:57:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 13:11:28.954473
- Title: Manipulating Feature Visualizations with Gradient Slingshots
- Title(参考訳): グラディエントスリングショットによる特徴可視化の操作
- Authors: Dilyara Bareeva, Marina M.-C. H\"ohne, Alexander Warnecke, Lukas
Pirch, Klaus-Robert M\"uller, Konrad Rieck, Kirill Bykov
- Abstract要約: モデルアーキテクチャを変更することなく特徴可視化を操作する新しい手法を提案する。
いくつかのニューラルネットワークモデルにおいて,本手法の有効性を評価し,特定のニューロンの機能を隠す能力を示す。
- 参考スコア(独自算出の注目度): 46.20447646518049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Neural Networks (DNNs) are capable of learning complex and versatile
representations, however, the semantic nature of the learned concepts remains
unknown. A common method used to explain the concepts learned by DNNs is
Activation Maximization (AM), which generates a synthetic input signal that
maximally activates a particular neuron in the network. In this paper, we
investigate the vulnerability of this approach to adversarial model
manipulations and introduce a novel method for manipulating feature
visualization without altering the model architecture or significantly
impacting the model's decision-making process. We evaluate the effectiveness of
our method on several neural network models and demonstrate its capabilities to
hide the functionality of specific neurons by masking the original explanations
of neurons with chosen target explanations during model auditing. As a remedy,
we propose a protective measure against such manipulations and provide
quantitative evidence which substantiates our findings.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は複雑で汎用的な表現を学習することができるが、学習概念の意味的性質はいまだ不明である。
DNNで学んだ概念を説明するのに使われる一般的な方法は、ネットワーク内の特定のニューロンを最大に活性化する合成入力信号を生成するActivation Maximization (AM)である。
本稿では,本手法の敵対的モデル操作に対する脆弱性を調査し,モデルアーキテクチャを変更したり,モデルの意思決定プロセスに大きな影響を与えることなく,特徴の可視化を行う新しい手法を提案する。
提案手法の有効性をいくつかのニューラルネットワークモデルで評価し,モデル監査中に選択した目的説明でニューロンの本来の説明を隠蔽することにより,特定のニューロンの機能を隠す能力を示す。
治療薬として,このような操作に対する保護措置を提案し,その結果を裏付ける定量的証拠を提供する。
関連論文リスト
- Automated Natural Language Explanation of Deep Visual Neurons with Large
Models [43.178568768100305]
本稿では,大きな基礎モデルを持つニューロンの意味的説明を生成するための,新しいポストホックフレームワークを提案する。
我々のフレームワークは、様々なモデルアーキテクチャやデータセット、自動化されたスケーラブルなニューロン解釈と互換性があるように設計されています。
論文 参考訳(メタデータ) (2023-10-16T17:04:51Z) - On the Trade-off Between Efficiency and Precision of Neural Abstraction [62.046646433536104]
ニューラル抽象化は、最近、複雑な非線形力学モデルの形式近似として導入されている。
我々は形式的帰納的合成法を用いて、これらのセマンティクスを用いた動的モデルをもたらすニューラル抽象化を生成する。
論文 参考訳(メタデータ) (2023-07-28T13:22:32Z) - Concept backpropagation: An Explainable AI approach for visualising
learned concepts in neural network models [0.0]
本稿では,ある概念を表す情報が与えられたニューラルネットワークモデルにどのように内在化されているかを分析する方法として,Emphconcept backpropagationという概念検出手法の拡張を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:21:13Z) - Adversarial Attacks on the Interpretation of Neuron Activation
Maximization [70.5472799454224]
アクティベーション最大化アプローチは、訓練されたディープラーニングモデルの解釈と解析に使用される。
本研究では,解釈を欺くためにモデルを操作する敵の概念を考察する。
論文 参考訳(メタデータ) (2023-06-12T19:54:33Z) - ConCerNet: A Contrastive Learning Based Framework for Automated
Conservation Law Discovery and Trustworthy Dynamical System Prediction [82.81767856234956]
本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。
本手法は, 座標誤差と保存量の両方において, ベースラインニューラルネットワークよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-11T21:07:30Z) - Neural Activation Patterns (NAPs): Visual Explainability of Learned
Concepts [8.562628320010035]
本稿では,活性化分布全体を考慮に入れた手法を提案する。
ニューラルネットワーク層の高次元活性化空間内で同様の活性化プロファイルを抽出することにより、同様に扱われる入力のグループを見つける。
これらの入力グループは、ニューラルネットワークアクティベーションパターン(NAP)を表現し、学習された層の概念を視覚化し解釈するために使用することができる。
論文 参考訳(メタデータ) (2022-06-20T09:05:57Z) - Feature visualization for convolutional neural network models trained on
neuroimaging data [0.0]
畳み込みニューラルネットワーク(CNN)の機能可視化による最初の結果を示す。
我々は、MRIデータに基づく性分類や人為的病変分類など、さまざまなタスクのためにCNNを訓練した。
得られた画像は、その形状を含む人工的な病変の学習概念を明らかにするが、性分類タスクにおける抽象的な特徴を解釈することは困難である。
論文 参考訳(メタデータ) (2022-03-24T15:24:38Z) - EINNs: Epidemiologically-Informed Neural Networks [75.34199997857341]
本稿では,疫病予測のための新しい物理インフォームドニューラルネットワークEINNを紹介する。
メカニスティックモデルによって提供される理論的柔軟性と、AIモデルによって提供されるデータ駆動表現性の両方を活用する方法について検討する。
論文 参考訳(メタデータ) (2022-02-21T18:59:03Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。