論文の概要: From Feature Visualization to Visual Circuits: Effect of Adversarial Model Manipulation
- arxiv url: http://arxiv.org/abs/2406.01365v1
- Date: Mon, 3 Jun 2024 14:32:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 22:49:47.401680
- Title: From Feature Visualization to Visual Circuits: Effect of Adversarial Model Manipulation
- Title(参考訳): 特徴可視化から視覚回路へ:逆モデル操作の効果
- Authors: Geraldin Nanfack, Michael Eickenberg, Eugene Belilovsky,
- Abstract要約: 本稿では,ProxPulseをベースとした新たな攻撃手法を提案する。
これらの攻撃の有効性は、ImageNet上でトレーニング済みのAlexNetとResNet-50モデルを使用して検証される。
- 参考スコア(独自算出の注目度): 11.11471980729544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the inner working functionality of large-scale deep neural networks is challenging yet crucial in several high-stakes applications. Mechanistic inter- pretability is an emergent field that tackles this challenge, often by identifying human-understandable subgraphs in deep neural networks known as circuits. In vision-pretrained models, these subgraphs are usually interpreted by visualizing their node features through a popular technique called feature visualization. Recent works have analyzed the stability of different feature visualization types under the adversarial model manipulation framework. This paper starts by addressing limitations in existing works by proposing a novel attack called ProxPulse that simultaneously manipulates the two types of feature visualizations. Surprisingly, when analyzing these attacks under the umbrella of visual circuits, we find that visual circuits show some robustness to ProxPulse. We, therefore, introduce a new attack based on ProxPulse that unveils the manipulability of visual circuits, shedding light on their lack of robustness. The effectiveness of these attacks is validated using pre-trained AlexNet and ResNet-50 models on ImageNet.
- Abstract(参考訳): 大規模ディープニューラルネットワークの内部動作機能を理解することは、いくつかの高度なアプリケーションでは難しいが重要な課題である。
メカニスティック・インター・プレッタビリティ(Mechanistic Inter-Pretability)は、この課題に対処する創発的な分野である。
視覚に順応したモデルでは、これらのサブグラフは通常、特徴視覚化と呼ばれる一般的な手法でノードの特徴を視覚化することで解釈される。
近年の研究では, 異なる特徴可視化型の安定性を, 対向モデル操作フレームワーク下で解析している。
本稿では,2種類の特徴可視化を同時に操作するProxPulseと呼ばれる新たな攻撃を提案することによって,既存の作業の限界に対処することから始める。
驚くべきことに、これらの攻撃を視覚回路の傘で分析すると、視覚回路がProxPulseに頑丈であることが分かる。
そこで我々は、ProxPulseに基づく新たな攻撃を導入し、視覚回路のマニピュラビリティを明らかにし、堅牢性の欠如に光を当てる。
これらの攻撃の有効性は、ImageNet上でトレーニング済みのAlexNetとResNet-50モデルを使用して検証される。
関連論文リスト
- Efficient Visualization of Neural Networks with Generative Models and Adversarial Perturbations [0.0]
本稿では,既存の手法を改良した生成ネットワークによるディープビジュアライゼーション手法を提案する。
我々のモデルは、使用するネットワーク数を減らし、ジェネレータと識別器のみを必要とすることにより、アーキテクチャを単純化する。
我々のモデルは、事前の訓練知識を少なくし、差別者がガイドとして機能する非敵的訓練プロセスを使用する。
論文 参考訳(メタデータ) (2024-09-20T14:59:25Z) - Automatic Discovery of Visual Circuits [66.99553804855931]
本稿では,視覚モデルにおける視覚的概念の認識の基盤となる計算グラフのサブグラフを抽出するスケーラブルな手法について検討する。
提案手法は, モデル出力に因果的に影響を及ぼす回路を抽出し, これらの回路を編集することで, 敵攻撃から大きな事前学習モデルを守ることができることがわかった。
論文 参考訳(メタデータ) (2024-04-22T17:00:57Z) - Don't trust your eyes: on the (un)reliability of feature visualizations [25.018840023636546]
自然入力上での通常のネットワーク動作から完全に切り離された任意のパターンを示すために、特徴視覚化をトリックする方法を示す。
次に、標準の無人ネットワークで同様の現象が起こる証拠を提供する。
これは機能ビジュアライゼーションの正当性チェックとして使用できる。
論文 参考訳(メタデータ) (2023-06-07T18:31:39Z) - FuNNscope: Visual microscope for interactively exploring the loss
landscape of fully connected neural networks [77.34726150561087]
ニューラルネットワークの高次元景観特性を探索する方法を示す。
我々は、小さなニューラルネットワークの観測結果をより複雑なシステムに一般化する。
インタラクティブダッシュボードは、いくつかのアプリケーションネットワークを開放する。
論文 参考訳(メタデータ) (2022-04-09T16:41:53Z) - Interactive Analysis of CNN Robustness [11.136837582678869]
Perturberはウェブベースのアプリケーションで、3D入力シーンがインタラクティブに摂動した場合、CNNのアクティベーションと予測がどのように進化するかをユーザが調査することができる。
パーターバーは、カメラコントロール、照明とシェーディング効果、背景の修正、物体の変形、敵の攻撃など、様々なシーン修正を提供している。
機械学習の専門家によるケーススタディによると、Perturberはモデルの脆弱性に関する仮説を素早く生成し、モデルの振る舞いを質的に比較するのに役立つ。
論文 参考訳(メタデータ) (2021-10-14T18:52:39Z) - Attack to Fool and Explain Deep Networks [59.97135687719244]
対人摂動における人為的意味のパターンの証拠を提供することによって、私たちは逆転する。
我々の主な貢献は、その後視覚モデルを理解するためのツールに変換される、新しい実用的対人攻撃である。
論文 参考訳(メタデータ) (2021-06-20T03:07:36Z) - Explainable Adversarial Attacks in Deep Neural Networks Using Activation
Profiles [69.9674326582747]
本稿では,敵対的事例に基づくニューラルネットワークモデルを検討するためのビジュアルフレームワークを提案する。
これらの要素を観察することで、モデル内の悪用領域を素早く特定できることを示す。
論文 参考訳(メタデータ) (2021-03-18T13:04:21Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z) - The FaceChannel: A Fast & Furious Deep Neural Network for Facial
Expression Recognition [71.24825724518847]
顔の表情の自動認識(FER)の最先端モデルは、非常に深いニューラルネットワークに基づいており、訓練には効果的だがかなり高価である。
私たちは、一般的なディープニューラルネットワークよりもはるかに少ないパラメータを持つ軽量ニューラルネットワークであるFaceChannelを形式化します。
我々は、私たちのモデルがFERの現在の最先端技術に匹敵するパフォーマンスを達成する方法を実証する。
論文 参考訳(メタデータ) (2020-09-15T09:25:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。