論文の概要: Robust Feature-Level Adversaries are Interpretability Tools
- arxiv url: http://arxiv.org/abs/2110.03605v7
- Date: Mon, 11 Sep 2023 16:31:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 23:51:03.769987
- Title: Robust Feature-Level Adversaries are Interpretability Tools
- Title(参考訳): ロバストな機能レベルの敵は解釈ツールである
- Authors: Stephen Casper, Max Nadeau, Dylan Hadfield-Menell, Gabriel Kreiman
- Abstract要約: イメージジェネレータの潜伏表現を操り、"機能レベル"の対向摂動を創りだす最近の研究は、認識可能な、解釈可能な対向攻撃を探求する機会を与えてくれる。
これらの敵は、独自に多目的であり、非常に堅牢であることを示す。
ImageNetスケールでターゲット、普遍、偽装、物理的に実現可能、およびブラックボックス攻撃を生成するために使用できる。
- 参考スコア(独自算出の注目度): 17.72884349429452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The literature on adversarial attacks in computer vision typically focuses on
pixel-level perturbations. These tend to be very difficult to interpret. Recent
work that manipulates the latent representations of image generators to create
"feature-level" adversarial perturbations gives us an opportunity to explore
perceptible, interpretable adversarial attacks. We make three contributions.
First, we observe that feature-level attacks provide useful classes of inputs
for studying representations in models. Second, we show that these adversaries
are uniquely versatile and highly robust. We demonstrate that they can be used
to produce targeted, universal, disguised, physically-realizable, and black-box
attacks at the ImageNet scale. Third, we show how these adversarial images can
be used as a practical interpretability tool for identifying bugs in networks.
We use these adversaries to make predictions about spurious associations
between features and classes which we then test by designing "copy/paste"
attacks in which one natural image is pasted into another to cause a targeted
misclassification. Our results suggest that feature-level attacks are a
promising approach for rigorous interpretability research. They support the
design of tools to better understand what a model has learned and diagnose
brittle feature associations. Code is available at
https://github.com/thestephencasper/feature_level_adv
- Abstract(参考訳): コンピュータビジョンにおける敵攻撃に関する文献は、通常ピクセルレベルの摂動に焦点を当てている。
これらは解釈がとても難しい傾向がある。
イメージジェネレータの潜伏表現を操り、"機能レベル"の対向摂動を創り出す最近の研究は、認識可能な、解釈可能な対向攻撃を探求する機会を与えてくれる。
我々は3つの貢献をした。
まず,特徴レベルの攻撃はモデル内の表現を研究する上で有用な入力のクラスを提供する。
第二に、これらの敵は独自に多目的であり、非常に堅牢であることを示す。
imagenetのスケールで、ターゲット、普遍、変装、物理的に実現可能なブラックボックス攻撃を生成できることを実証する。
第3に,これらの画像がネットワーク上のバグを識別するための実用的な解釈ツールとして利用できることを示す。
我々はこれらの敵を用いて特徴とクラス間の急激な関連を予測し、ある自然なイメージを別のものに貼り付け、ターゲットの誤分類を引き起こす「コピー/ペースト」攻撃を設計してテストする。
その結果,機能レベルの攻撃は厳密な解釈可能性研究にとって有望なアプローチであることが示唆された。
モデルが学んだことをよりよく理解し、脆弱な機能関連を診断するために、ツールの設計をサポートする。
コードはhttps://github.com/thestephencasper/feature_level_advで入手できる。
関連論文リスト
- Adversarial Doodles: Interpretable and Human-drawable Attacks Provide
Describable Insights [14.832208701208414]
本稿では, 解釈可能な形状を持つ逆ドゥードルを提案する。
我々は、人間が手動でそれらを複製しても、誤分類を引き起こすコンパクトな攻撃を得る。
論文 参考訳(メタデータ) (2023-11-27T16:43:37Z) - Investigating Human-Identifiable Features Hidden in Adversarial
Perturbations [54.39726653562144]
我々の研究では、最大5つの攻撃アルゴリズムを3つのデータセットにわたって探索する。
対人摂動における人間の識別可能な特徴を同定する。
画素レベルのアノテーションを用いて、そのような特徴を抽出し、ターゲットモデルに妥協する能力を実証する。
論文 参考訳(メタデータ) (2023-09-28T22:31:29Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Adversarial examples by perturbing high-level features in intermediate
decoder layers [0.0]
画素を摂動する代わりに、入力画像のエンコーダ-デコーダ表現とデコーダの中間層を摂動する。
我々の摂動は、より長いくちばしや緑のくちばしのような意味的な意味を持っている。
本手法は,敵の攻撃に対して,敵の訓練に基づく防御技術が脆弱であることを示す。
論文 参考訳(メタデータ) (2021-10-14T07:08:15Z) - Discriminator-Free Generative Adversarial Attack [87.71852388383242]
生成的ベースの敵攻撃は、この制限を取り除くことができる。
ASymmetric Saliency-based Auto-Encoder (SSAE) は摂動を生成する。
SSAEが生成した敵の例は、広く使われているモデルを崩壊させるだけでなく、優れた視覚的品質を実現する。
論文 参考訳(メタデータ) (2021-07-20T01:55:21Z) - Attack to Fool and Explain Deep Networks [59.97135687719244]
対人摂動における人為的意味のパターンの証拠を提供することによって、私たちは逆転する。
我々の主な貢献は、その後視覚モデルを理解するためのツールに変換される、新しい実用的対人攻撃である。
論文 参考訳(メタデータ) (2021-06-20T03:07:36Z) - Exploring Adversarial Robustness of Multi-Sensor Perception Systems in
Self Driving [87.3492357041748]
本稿では,敵物体をホスト車両の上に配置することで,マルチセンサ検出の実用的感受性を示す。
実験の結果, 攻撃が成功した原因は主に画像の特徴が損なわれやすいことが判明した。
よりロバストなマルチモーダル知覚システムに向けて,特徴分断を伴う敵対的訓練が,このような攻撃に対するロバスト性を大幅に高めることを示す。
論文 参考訳(メタデータ) (2021-01-17T21:15:34Z) - AdvFlow: Inconspicuous Black-box Adversarial Attacks using Normalizing
Flows [11.510009152620666]
本稿では,画像分類器に対する新たなブラックボックス攻撃手法であるAdvFlowを紹介する。
提案手法では, クリーンなデータ分布に密接に従う敵が生成され, 検出の可能性が低下する。
論文 参考訳(メタデータ) (2020-07-15T02:13:49Z) - Generating Semantic Adversarial Examples via Feature Manipulation [23.48763375455514]
本稿では,意味的意味を持つ構造的摂動を設計することで,より現実的な敵攻撃を提案する。
提案手法は,非絡み付きラテント符号を用いて画像の意味的属性を演算する。
我々は、普遍的で画像に依存しないセマンティック・逆境の例の存在を実証する。
論文 参考訳(メタデータ) (2020-01-06T06:28:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。