Fugu-MT 論文翻訳(概要): Robust Feature-Level Adversaries are Interpretability Tools

論文の概要: Robust Feature-Level Adversaries are Interpretability Tools

arxiv url: http://arxiv.org/abs/2110.03605v7
Date: Mon, 11 Sep 2023 16:31:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-12 23:51:03.769987
Title: Robust Feature-Level Adversaries are Interpretability Tools
Title（参考訳）: ロバストな機能レベルの敵は解釈ツールである
Authors: Stephen Casper, Max Nadeau, Dylan Hadfield-Menell, Gabriel Kreiman
Abstract要約: イメージジェネレータの潜伏表現を操り、"機能レベル"の対向摂動を創りだす最近の研究は、認識可能な、解釈可能な対向攻撃を探求する機会を与えてくれる。これらの敵は、独自に多目的であり、非常に堅牢であることを示す。 ImageNetスケールでターゲット、普遍、偽装、物理的に実現可能、およびブラックボックス攻撃を生成するために使用できる。
参考スコア（独自算出の注目度）: 17.72884349429452
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The literature on adversarial attacks in computer vision typically focuses on pixel-level perturbations. These tend to be very difficult to interpret. Recent work that manipulates the latent representations of image generators to create "feature-level" adversarial perturbations gives us an opportunity to explore perceptible, interpretable adversarial attacks. We make three contributions. First, we observe that feature-level attacks provide useful classes of inputs for studying representations in models. Second, we show that these adversaries are uniquely versatile and highly robust. We demonstrate that they can be used to produce targeted, universal, disguised, physically-realizable, and black-box attacks at the ImageNet scale. Third, we show how these adversarial images can be used as a practical interpretability tool for identifying bugs in networks. We use these adversaries to make predictions about spurious associations between features and classes which we then test by designing "copy/paste" attacks in which one natural image is pasted into another to cause a targeted misclassification. Our results suggest that feature-level attacks are a promising approach for rigorous interpretability research. They support the design of tools to better understand what a model has learned and diagnose brittle feature associations. Code is available at https://github.com/thestephencasper/feature_level_adv
Abstract（参考訳）: コンピュータビジョンにおける敵攻撃に関する文献は、通常ピクセルレベルの摂動に焦点を当てている。これらは解釈がとても難しい傾向がある。イメージジェネレータの潜伏表現を操り、"機能レベル"の対向摂動を創り出す最近の研究は、認識可能な、解釈可能な対向攻撃を探求する機会を与えてくれる。我々は3つの貢献をした。まず,特徴レベルの攻撃はモデル内の表現を研究する上で有用な入力のクラスを提供する。第二に、これらの敵は独自に多目的であり、非常に堅牢であることを示す。 imagenetのスケールで、ターゲット、普遍、変装、物理的に実現可能なブラックボックス攻撃を生成できることを実証する。第3に,これらの画像がネットワーク上のバグを識別するための実用的な解釈ツールとして利用できることを示す。我々はこれらの敵を用いて特徴とクラス間の急激な関連を予測し、ある自然なイメージを別のものに貼り付け、ターゲットの誤分類を引き起こす「コピー/ペースト」攻撃を設計してテストする。その結果,機能レベルの攻撃は厳密な解釈可能性研究にとって有望なアプローチであることが示唆された。モデルが学んだことをよりよく理解し、脆弱な機能関連を診断するために、ツールの設計をサポートする。コードはhttps://github.com/thestephencasper/feature_level_advで入手できる。

関連論文リスト

Web Artifact Attacks Disrupt Vision Language Models [61.59021920232986]
視覚言語モデル(VLM)は、大規模で軽量にキュレートされたWebデータセットに基づいて訓練されている。意味概念と無関係な視覚信号の間に意図しない相関関係を学習する。これまでの研究は、これらの相関関係をモデル予測を操作するための攻撃ベクトルとして武器化してきた。非マッチングテキストとグラフィカル要素の両方を使ってモデルを誤解させる新しい操作クラスである、アーティファクトベースのアタックを紹介します。
論文参考訳（メタデータ） (2025-03-17T18:59:29Z)
Any Target Can be Offense: Adversarial Example Generation via Generalized Latent Infection [83.72430401516674]
GAKerは任意のターゲットクラスに対して逆例を構築することができる。本手法は,未知のクラスに対する攻撃成功率を約14.13%で達成する。
論文参考訳（メタデータ） (2024-07-17T03:24:09Z)
Improving Adversarial Robustness via Decoupled Visual Representation Masking [65.73203518658224]
本稿では,特徴分布の観点から,ロバストな特徴の2つの新しい特性を強調した。現状の防衛手法は、上記の2つの問題にうまく対処することを目的としている。具体的には、分離された視覚的表現マスキングに基づく、シンプルだが効果的な防御法を提案する。
論文参考訳（メタデータ） (2024-06-16T13:29:41Z)
Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文参考訳（メタデータ） (2024-03-17T16:36:26Z)
Counterfactual Image Generation for adversarially robust and interpretable Classifiers [1.3859669037499769]
本稿では,GAN(Generative Adrial Networks)を基盤として,画像から画像への変換を利用した統合フレームワークを提案する。これは、分類器と識別器を1つのモデルに組み合わせて、実際の画像をそれぞれのクラスに属性付け、生成されたイメージを「フェイク」として生成することで達成される。モデルが敵攻撃に対するロバスト性の向上を示すことを示すとともに,判別器の「フェイクネス」値が予測の不確かさの指標となることを示す。
論文参考訳（メタデータ） (2023-10-01T18:50:29Z)
Investigating Human-Identifiable Features Hidden in Adversarial Perturbations [54.39726653562144]
我々の研究では、最大5つの攻撃アルゴリズムを3つのデータセットにわたって探索する。対人摂動における人間の識別可能な特徴を同定する。画素レベルのアノテーションを用いて、そのような特徴を抽出し、ターゲットモデルに妥協する能力を実証する。
論文参考訳（メタデータ） (2023-09-28T22:31:29Z)
Towards A Conceptually Simple Defensive Approach for Few-shot classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文参考訳（メタデータ） (2021-10-24T05:46:03Z)
Adversarial examples by perturbing high-level features in intermediate decoder layers [0.0]
画素を摂動する代わりに、入力画像のエンコーダ-デコーダ表現とデコーダの中間層を摂動する。我々の摂動は、より長いくちばしや緑のくちばしのような意味的な意味を持っている。本手法は,敵の攻撃に対して,敵の訓練に基づく防御技術が脆弱であることを示す。
論文参考訳（メタデータ） (2021-10-14T07:08:15Z)
Attack to Fool and Explain Deep Networks [59.97135687719244]
対人摂動における人為的意味のパターンの証拠を提供することによって、私たちは逆転する。我々の主な貢献は、その後視覚モデルを理解するためのツールに変換される、新しい実用的対人攻撃である。
論文参考訳（メタデータ） (2021-06-20T03:07:36Z)
AdvFlow: Inconspicuous Black-box Adversarial Attacks using Normalizing Flows [11.510009152620666]
本稿では,画像分類器に対する新たなブラックボックス攻撃手法であるAdvFlowを紹介する。提案手法では, クリーンなデータ分布に密接に従う敵が生成され, 検出の可能性が低下する。
論文参考訳（メタデータ） (2020-07-15T02:13:49Z)
Generating Semantic Adversarial Examples via Feature Manipulation [23.48763375455514]
本稿では,意味的意味を持つ構造的摂動を設計することで,より現実的な敵攻撃を提案する。提案手法は,非絡み付きラテント符号を用いて画像の意味的属性を演算する。我々は、普遍的で画像に依存しないセマンティック・逆境の例の存在を実証する。
論文参考訳（メタデータ） (2020-01-06T06:28:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。