論文の概要: Attack to Fool and Explain Deep Networks
- arxiv url: http://arxiv.org/abs/2106.10606v1
- Date: Sun, 20 Jun 2021 03:07:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 16:03:41.571727
- Title: Attack to Fool and Explain Deep Networks
- Title(参考訳): フォア攻撃とディープ・ネットワークの解説
- Authors: Naveed Akhtar, Muhammad A. A. K. Jalwana, Mohammed Bennamoun, Ajmal
Mian
- Abstract要約: 対人摂動における人為的意味のパターンの証拠を提供することによって、私たちは逆転する。
我々の主な貢献は、その後視覚モデルを理解するためのツールに変換される、新しい実用的対人攻撃である。
- 参考スコア(独自算出の注目度): 59.97135687719244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep visual models are susceptible to adversarial perturbations to inputs.
Although these signals are carefully crafted, they still appear noise-like
patterns to humans. This observation has led to the argument that deep visual
representation is misaligned with human perception. We counter-argue by
providing evidence of human-meaningful patterns in adversarial perturbations.
We first propose an attack that fools a network to confuse a whole category of
objects (source class) with a target label. Our attack also limits the
unintended fooling by samples from non-sources classes, thereby circumscribing
human-defined semantic notions for network fooling. We show that the proposed
attack not only leads to the emergence of regular geometric patterns in the
perturbations, but also reveals insightful information about the decision
boundaries of deep models. Exploring this phenomenon further, we alter the
`adversarial' objective of our attack to use it as a tool to `explain' deep
visual representation. We show that by careful channeling and projection of the
perturbations computed by our method, we can visualize a model's understanding
of human-defined semantic notions. Finally, we exploit the explanability
properties of our perturbations to perform image generation, inpainting and
interactive image manipulation by attacking adversarialy robust
`classifiers'.In all, our major contribution is a novel pragmatic adversarial
attack that is subsequently transformed into a tool to interpret the visual
models. The article also makes secondary contributions in terms of establishing
the utility of our attack beyond the adversarial objective with multiple
interesting applications.
- Abstract(参考訳): 深い視覚モデルは入力に対する敵対的な摂動に影響を受けやすい。
これらの信号は慎重に作られていますが、それでも人間にはノイズのようなパターンがあります。
この観察は、深い視覚表現が人間の知覚とミスアライメントされているという議論につながった。
我々は,敵の摂動における人為的なパターンの証拠を提供することで対抗する。
まず、ネットワークを騙してオブジェクトのカテゴリ(ソースクラス)全体をターゲットラベルと混同する攻撃を提案する。
我々の攻撃はまた、非ソースクラスからのサンプルによる意図しない不正行為を制限し、ネットワーク不正に対する人間定義のセマンティックな概念を包含する。
提案した攻撃は,摂動の規則的な幾何学的パターンの出現に繋がるだけでなく,深層モデルの決定境界に関する洞察に富んだ情報も明らかにする。
さらにこの現象を探索し、攻撃の「敵」の目的を変更し、深い視覚表現を「説明」するためのツールとして使用する。
提案手法によって計算された摂動の注意深いチャネル化と投影により,人間の定義した意味概念に対するモデルの理解を可視化できることを示す。
最後に、摂動の説明可能性を利用して、敵対的堅牢な「分類者」を攻撃することにより、画像生成、塗装、インタラクティブな画像操作を行い、その主な貢献は、視覚モデルを解釈するツールに変換される新しい現実的対人攻撃である。
記事はまた、複数の興味深いアプリケーションで敵の目的を超えて攻撃の効用を確立するという点で、二次的な貢献も行っています。
関連論文リスト
- Investigating Human-Identifiable Features Hidden in Adversarial
Perturbations [54.39726653562144]
我々の研究では、最大5つの攻撃アルゴリズムを3つのデータセットにわたって探索する。
対人摂動における人間の識別可能な特徴を同定する。
画素レベルのアノテーションを用いて、そのような特徴を抽出し、ターゲットモデルに妥協する能力を実証する。
論文 参考訳(メタデータ) (2023-09-28T22:31:29Z) - Mitigating Adversarial Attacks in Deepfake Detection: An Exploration of
Perturbation and AI Techniques [1.0718756132502771]
敵の例は微妙な摂動で きれいな画像やビデオに 巧みに注入される
ディープフェイクは世論を操り、世論の評判を損なう強力なツールとして登場した。
この記事では、多面的な敵の例の世界を掘り下げ、ディープラーニングアルゴリズムを騙す能力の背後にある原則を解明する。
論文 参考訳(メタデータ) (2023-02-22T23:48:19Z) - Robust Feature-Level Adversaries are Interpretability Tools [17.72884349429452]
イメージジェネレータの潜伏表現を操り、"機能レベル"の対向摂動を創りだす最近の研究は、認識可能な、解釈可能な対向攻撃を探求する機会を与えてくれる。
これらの敵は、独自に多目的であり、非常に堅牢であることを示す。
ImageNetスケールでターゲット、普遍、偽装、物理的に実現可能、およびブラックボックス攻撃を生成するために使用できる。
論文 参考訳(メタデータ) (2021-10-07T16:33:11Z) - Online Alternate Generator against Adversarial Attacks [144.45529828523408]
ディープラーニングモデルは、実際の画像に準知覚可能なノイズを加えることによって合成される敵の例に非常に敏感である。
対象ネットワークのパラメータをアクセスしたり変更したりする必要のない,ポータブルな防御手法であるオンライン代替ジェネレータを提案する。
提案手法は,入力画像のスクラッチから別の画像をオンライン合成することで,対向雑音を除去・破壊する代わりに機能する。
論文 参考訳(メタデータ) (2020-09-17T07:11:16Z) - Bluff: Interactively Deciphering Adversarial Attacks on Deep Neural
Networks [21.074988013822566]
Bluffは、視覚ベースのニューラルネットワークに対する敵攻撃を可視化、特徴づけ、解読するインタラクティブシステムである。
敵攻撃がモデルに害を与えるメカニズムを明らかにする。
論文 参考訳(メタデータ) (2020-09-05T22:08:35Z) - Stylized Adversarial Defense [105.88250594033053]
逆行訓練は摂動パターンを生成し、モデルを堅牢化するためのトレーニングセットにそれらを含む。
我々は、より強力な敵を作るために、機能空間から追加情報を活用することを提案する。
我々の対人訓練アプローチは、最先端の防御と比べて強い堅牢性を示している。
論文 参考訳(メタデータ) (2020-07-29T08:38:10Z) - Adversarial Attacks and Defenses: An Interpretation Perspective [80.23908920686625]
敵の攻撃と防御に関する最近の研究、特に機械学習の解釈の観点から概観する。
モデル解釈(モデル解釈、英: model interpretation)または解釈可能な機械学習(英: interpretable machine learning)の目標は、モデルの動作メカニズムに対する人間の理解可能な用語を抽出することである。
それぞれの解釈に対して、敵の攻撃や防御にどのように使用できるかについて詳述する。
論文 参考訳(メタデータ) (2020-04-23T23:19:00Z) - Towards Achieving Adversarial Robustness by Enforcing Feature
Consistency Across Bit Planes [51.31334977346847]
我々は、高ビット平面の情報に基づいて粗い印象を形成するためにネットワークを訓練し、低ビット平面を用いて予測を洗練させる。
異なる量子化画像間で学習した表現に一貫性を付与することにより、ネットワークの対角的ロバスト性が大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-04-01T09:31:10Z) - Generating Semantic Adversarial Examples via Feature Manipulation [23.48763375455514]
本稿では,意味的意味を持つ構造的摂動を設計することで,より現実的な敵攻撃を提案する。
提案手法は,非絡み付きラテント符号を用いて画像の意味的属性を演算する。
我々は、普遍的で画像に依存しないセマンティック・逆境の例の存在を実証する。
論文 参考訳(メタデータ) (2020-01-06T06:28:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。