論文の概要: Robust Feature-Level Adversaries are Interpretability Tools
- arxiv url: http://arxiv.org/abs/2110.03605v7
- Date: Mon, 11 Sep 2023 16:31:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 23:51:03.769987
- Title: Robust Feature-Level Adversaries are Interpretability Tools
- Title(参考訳): ロバストな機能レベルの敵は解釈ツールである
- Authors: Stephen Casper, Max Nadeau, Dylan Hadfield-Menell, Gabriel Kreiman
- Abstract要約: イメージジェネレータの潜伏表現を操り、"機能レベル"の対向摂動を創りだす最近の研究は、認識可能な、解釈可能な対向攻撃を探求する機会を与えてくれる。
これらの敵は、独自に多目的であり、非常に堅牢であることを示す。
ImageNetスケールでターゲット、普遍、偽装、物理的に実現可能、およびブラックボックス攻撃を生成するために使用できる。
- 参考スコア(独自算出の注目度): 17.72884349429452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The literature on adversarial attacks in computer vision typically focuses on
pixel-level perturbations. These tend to be very difficult to interpret. Recent
work that manipulates the latent representations of image generators to create
"feature-level" adversarial perturbations gives us an opportunity to explore
perceptible, interpretable adversarial attacks. We make three contributions.
First, we observe that feature-level attacks provide useful classes of inputs
for studying representations in models. Second, we show that these adversaries
are uniquely versatile and highly robust. We demonstrate that they can be used
to produce targeted, universal, disguised, physically-realizable, and black-box
attacks at the ImageNet scale. Third, we show how these adversarial images can
be used as a practical interpretability tool for identifying bugs in networks.
We use these adversaries to make predictions about spurious associations
between features and classes which we then test by designing "copy/paste"
attacks in which one natural image is pasted into another to cause a targeted
misclassification. Our results suggest that feature-level attacks are a
promising approach for rigorous interpretability research. They support the
design of tools to better understand what a model has learned and diagnose
brittle feature associations. Code is available at
https://github.com/thestephencasper/feature_level_adv
- Abstract(参考訳): コンピュータビジョンにおける敵攻撃に関する文献は、通常ピクセルレベルの摂動に焦点を当てている。
これらは解釈がとても難しい傾向がある。
イメージジェネレータの潜伏表現を操り、"機能レベル"の対向摂動を創り出す最近の研究は、認識可能な、解釈可能な対向攻撃を探求する機会を与えてくれる。
我々は3つの貢献をした。
まず,特徴レベルの攻撃はモデル内の表現を研究する上で有用な入力のクラスを提供する。
第二に、これらの敵は独自に多目的であり、非常に堅牢であることを示す。
imagenetのスケールで、ターゲット、普遍、変装、物理的に実現可能なブラックボックス攻撃を生成できることを実証する。
第3に,これらの画像がネットワーク上のバグを識別するための実用的な解釈ツールとして利用できることを示す。
我々はこれらの敵を用いて特徴とクラス間の急激な関連を予測し、ある自然なイメージを別のものに貼り付け、ターゲットの誤分類を引き起こす「コピー/ペースト」攻撃を設計してテストする。
その結果,機能レベルの攻撃は厳密な解釈可能性研究にとって有望なアプローチであることが示唆された。
モデルが学んだことをよりよく理解し、脆弱な機能関連を診断するために、ツールの設計をサポートする。
コードはhttps://github.com/thestephencasper/feature_level_advで入手できる。
関連論文リスト
- Any Target Can be Offense: Adversarial Example Generation via Generalized Latent Infection [83.72430401516674]
GAKerは任意のターゲットクラスに対して逆例を構築することができる。
本手法は,未知のクラスに対する攻撃成功率を約14.13%で達成する。
論文 参考訳(メタデータ) (2024-07-17T03:24:09Z) - Improving Adversarial Robustness via Decoupled Visual Representation Masking [65.73203518658224]
本稿では,特徴分布の観点から,ロバストな特徴の2つの新しい特性を強調した。
現状の防衛手法は、上記の2つの問題にうまく対処することを目的としている。
具体的には、分離された視覚的表現マスキングに基づく、シンプルだが効果的な防御法を提案する。
論文 参考訳(メタデータ) (2024-06-16T13:29:41Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Counterfactual Image Generation for adversarially robust and
interpretable Classifiers [1.3859669037499769]
本稿では,GAN(Generative Adrial Networks)を基盤として,画像から画像への変換を利用した統合フレームワークを提案する。
これは、分類器と識別器を1つのモデルに組み合わせて、実際の画像をそれぞれのクラスに属性付け、生成されたイメージを「フェイク」として生成することで達成される。
モデルが敵攻撃に対するロバスト性の向上を示すことを示すとともに,判別器の「フェイクネス」値が予測の不確かさの指標となることを示す。
論文 参考訳(メタデータ) (2023-10-01T18:50:29Z) - Investigating Human-Identifiable Features Hidden in Adversarial
Perturbations [54.39726653562144]
我々の研究では、最大5つの攻撃アルゴリズムを3つのデータセットにわたって探索する。
対人摂動における人間の識別可能な特徴を同定する。
画素レベルのアノテーションを用いて、そのような特徴を抽出し、ターゲットモデルに妥協する能力を実証する。
論文 参考訳(メタデータ) (2023-09-28T22:31:29Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Adversarial examples by perturbing high-level features in intermediate
decoder layers [0.0]
画素を摂動する代わりに、入力画像のエンコーダ-デコーダ表現とデコーダの中間層を摂動する。
我々の摂動は、より長いくちばしや緑のくちばしのような意味的な意味を持っている。
本手法は,敵の攻撃に対して,敵の訓練に基づく防御技術が脆弱であることを示す。
論文 参考訳(メタデータ) (2021-10-14T07:08:15Z) - Attack to Fool and Explain Deep Networks [59.97135687719244]
対人摂動における人為的意味のパターンの証拠を提供することによって、私たちは逆転する。
我々の主な貢献は、その後視覚モデルを理解するためのツールに変換される、新しい実用的対人攻撃である。
論文 参考訳(メタデータ) (2021-06-20T03:07:36Z) - AdvFlow: Inconspicuous Black-box Adversarial Attacks using Normalizing
Flows [11.510009152620666]
本稿では,画像分類器に対する新たなブラックボックス攻撃手法であるAdvFlowを紹介する。
提案手法では, クリーンなデータ分布に密接に従う敵が生成され, 検出の可能性が低下する。
論文 参考訳(メタデータ) (2020-07-15T02:13:49Z) - Generating Semantic Adversarial Examples via Feature Manipulation [23.48763375455514]
本稿では,意味的意味を持つ構造的摂動を設計することで,より現実的な敵攻撃を提案する。
提案手法は,非絡み付きラテント符号を用いて画像の意味的属性を演算する。
我々は、普遍的で画像に依存しないセマンティック・逆境の例の存在を実証する。
論文 参考訳(メタデータ) (2020-01-06T06:28:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。