論文の概要: Concept-based Adversarial Attacks: Tricking Humans and Classifiers Alike
- arxiv url: http://arxiv.org/abs/2203.10166v1
- Date: Fri, 18 Mar 2022 21:30:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 15:13:32.868161
- Title: Concept-based Adversarial Attacks: Tricking Humans and Classifiers Alike
- Title(参考訳): 概念に基づく敵攻撃:人間や分類器をトリックする
- Authors: Johannes Schneider and Giovanni Apruzzese
- Abstract要約: 意味論的概念をコードする上層層のアクティベーションを変更することで,敵対的なサンプルを生成する。
人間は、元のサンプルと反対のサンプルの違いに気づくかもしれない(そしておそらくは)。
我々のアプローチは、例えば、人間と機械の両方が意思決定に関与している入力の多段階処理に関係している。
- 参考スコア(独自算出の注目度): 4.578929995816155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to generate adversarial samples by modifying activations of upper
layers encoding semantically meaningful concepts. The original sample is
shifted towards a target sample, yielding an adversarial sample, by using the
modified activations to reconstruct the original sample. A human might (and
possibly should) notice differences between the original and the adversarial
sample. Depending on the attacker-provided constraints, an adversarial sample
can exhibit subtle differences or appear like a "forged" sample from another
class. Our approach and goal are in stark contrast to common attacks involving
perturbations of single pixels that are not recognizable by humans. Our
approach is relevant in, e.g., multi-stage processing of inputs, where both
humans and machines are involved in decision-making because invisible
perturbations will not fool a human. Our evaluation focuses on deep neural
networks. We also show the transferability of our adversarial examples among
networks.
- Abstract(参考訳): 意味論的概念をコードする上層層のアクティベーションを変更することで,敵対的なサンプルを生成することを提案する。
原試料はターゲット試料に向かって移動し、原試料を再構成するために修正された活性化を用いて逆試料を得る。
人間は、元のサンプルと反対のサンプルの違いに気づくかもしれない(そしておそらくは)。
攻撃者が提供する制約によっては、敵のサンプルは微妙な違いを示したり、他のクラスの"偽"のサンプルのように見える。
我々のアプローチとゴールは、人間には認識できない単一のピクセルの摂動に関わる一般的な攻撃とは対照的である。
我々のアプローチは、例えば、人間と機械の両方が意思決定に関与しているような入力の多段階的な処理に関係している。
我々の評価はディープニューラルネットワークに焦点を当てている。
また,ネットワーク間における攻撃例の伝達可能性を示す。
関連論文リスト
- On the Effect of Adversarial Training Against Invariance-based
Adversarial Examples [0.23624125155742057]
この研究は、畳み込みニューラルネットワーク(CNN)における不変性に基づく逆トレーニングの効果に対処する。
本研究は,非分散型および摂動型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型を適用した場合,連続的でなく連続的に実施すべきであることを示す。
論文 参考訳(メタデータ) (2023-02-16T12:35:37Z) - Inference Time Evidences of Adversarial Attacks for Forensic on
Transformers [27.88746727644074]
視覚変換器(ViT)は、画像分類における最先端のパフォーマンスを達成することで、視覚タスクの一般的なパラダイムになりつつある。
本稿では,ネットワークの入力と出力および潜時特徴を用いて,推論時間中の敵攻撃を検出するための最初の試みを示す。
論文 参考訳(メタデータ) (2023-01-31T01:17:03Z) - Pixle: a fast and effective black-box attack based on rearranging pixels [15.705568893476947]
ブラックボックスの敵攻撃は攻撃モデルの内部構造を知ることなく行うことができる。
本稿では,攻撃画像内に少数の画素を並べ替えることで,高い割合のサンプルを正しく攻撃できる新たな攻撃法を提案する。
我々の攻撃は、多数のデータセットやモデルに作用し、少数の反復が必要であり、元のサンプルと逆のサンプルの間の距離が人間の目では無視可能であることを実証する。
論文 参考訳(メタデータ) (2022-02-04T17:03:32Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Identification of Attack-Specific Signatures in Adversarial Examples [62.17639067715379]
異なる攻撃アルゴリズムは, その効果だけでなく, 被害者の質的な影響も示している。
以上の結果から, 予測的対人攻撃は, 模擬モデルにおける成功率だけでなく, 被害者に対するより深い下流効果によって比較されるべきであることが示唆された。
論文 参考訳(メタデータ) (2021-10-13T15:40:48Z) - Adversarial Examples Detection with Bayesian Neural Network [57.185482121807716]
本稿では,ランダムな成分が予測器の滑らかさを向上できるという観測によって動機づけられた敵の例を検出するための新しい枠組みを提案する。
本稿では,BATer を略した新しいベイズ対向型サンプル検出器を提案し,対向型サンプル検出の性能を向上させる。
論文 参考訳(メタデータ) (2021-05-18T15:51:24Z) - Normal vs. Adversarial: Salience-based Analysis of Adversarial Samples
for Relation Extraction [25.869746965410954]
私たちは、サリエンスベースの方法で敵のサンプルを分析するための第一歩を踏み出します。
サリエンストークンは、敵対的な摂動と直接相関があることを観察する。
ある程度、私たちのアプローチは敵対的なサンプルに対するキャラクターを明らかにします。
論文 参考訳(メタデータ) (2021-04-01T07:36:04Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z) - AdvJND: Generating Adversarial Examples with Just Noticeable Difference [3.638233924421642]
例に小さな摂動を加えると、優れたパフォーマンスモデルが工芸品の例を誤って分類する。
我々のAdvJNDアルゴリズムが生成した逆例は、元の入力に類似した分布を生成する。
論文 参考訳(メタデータ) (2020-02-01T09:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。