論文の概要: Concept-based Adversarial Attacks: Tricking Humans and Classifiers Alike
- arxiv url: http://arxiv.org/abs/2203.10166v1
- Date: Fri, 18 Mar 2022 21:30:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 15:13:32.868161
- Title: Concept-based Adversarial Attacks: Tricking Humans and Classifiers Alike
- Title(参考訳): 概念に基づく敵攻撃:人間や分類器をトリックする
- Authors: Johannes Schneider and Giovanni Apruzzese
- Abstract要約: 意味論的概念をコードする上層層のアクティベーションを変更することで,敵対的なサンプルを生成する。
人間は、元のサンプルと反対のサンプルの違いに気づくかもしれない(そしておそらくは)。
我々のアプローチは、例えば、人間と機械の両方が意思決定に関与している入力の多段階処理に関係している。
- 参考スコア(独自算出の注目度): 4.578929995816155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to generate adversarial samples by modifying activations of upper
layers encoding semantically meaningful concepts. The original sample is
shifted towards a target sample, yielding an adversarial sample, by using the
modified activations to reconstruct the original sample. A human might (and
possibly should) notice differences between the original and the adversarial
sample. Depending on the attacker-provided constraints, an adversarial sample
can exhibit subtle differences or appear like a "forged" sample from another
class. Our approach and goal are in stark contrast to common attacks involving
perturbations of single pixels that are not recognizable by humans. Our
approach is relevant in, e.g., multi-stage processing of inputs, where both
humans and machines are involved in decision-making because invisible
perturbations will not fool a human. Our evaluation focuses on deep neural
networks. We also show the transferability of our adversarial examples among
networks.
- Abstract(参考訳): 意味論的概念をコードする上層層のアクティベーションを変更することで,敵対的なサンプルを生成することを提案する。
原試料はターゲット試料に向かって移動し、原試料を再構成するために修正された活性化を用いて逆試料を得る。
人間は、元のサンプルと反対のサンプルの違いに気づくかもしれない(そしておそらくは)。
攻撃者が提供する制約によっては、敵のサンプルは微妙な違いを示したり、他のクラスの"偽"のサンプルのように見える。
我々のアプローチとゴールは、人間には認識できない単一のピクセルの摂動に関わる一般的な攻撃とは対照的である。
我々のアプローチは、例えば、人間と機械の両方が意思決定に関与しているような入力の多段階的な処理に関係している。
我々の評価はディープニューラルネットワークに焦点を当てている。
また,ネットワーク間における攻撃例の伝達可能性を示す。
関連論文リスト
- Imperceptible Face Forgery Attack via Adversarial Semantic Mask [59.23247545399068]
本稿では, 対向性, 可視性に優れた対向性例を生成できるASMA(Adversarial Semantic Mask Attack framework)を提案する。
具体的には, 局所的なセマンティック領域の摂動を抑制し, 良好なステルス性を実現する, 対向型セマンティックマスク生成モデルを提案する。
論文 参考訳(メタデータ) (2024-06-16T10:38:11Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Breaking Free: How to Hack Safety Guardrails in Black-Box Diffusion Models! [52.0855711767075]
EvoSeedは、フォトリアリスティックな自然対向サンプルを生成するための進化戦略に基づくアルゴリズムフレームワークである。
我々は,CMA-ESを用いて初期種ベクトルの探索を最適化し,条件付き拡散モデルで処理すると,自然逆数サンプルをモデルで誤分類する。
実験の結果, 生成した対向画像は画像品質が高く, 安全分類器を通過させることで有害なコンテンツを生成する懸念が高まっていることがわかった。
論文 参考訳(メタデータ) (2024-02-07T09:39:29Z) - On the Effect of Adversarial Training Against Invariance-based
Adversarial Examples [0.23624125155742057]
この研究は、畳み込みニューラルネットワーク(CNN)における不変性に基づく逆トレーニングの効果に対処する。
本研究は,非分散型および摂動型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型を適用した場合,連続的でなく連続的に実施すべきであることを示す。
論文 参考訳(メタデータ) (2023-02-16T12:35:37Z) - Inference Time Evidences of Adversarial Attacks for Forensic on
Transformers [27.88746727644074]
視覚変換器(ViT)は、画像分類における最先端のパフォーマンスを達成することで、視覚タスクの一般的なパラダイムになりつつある。
本稿では,ネットワークの入力と出力および潜時特徴を用いて,推論時間中の敵攻撃を検出するための最初の試みを示す。
論文 参考訳(メタデータ) (2023-01-31T01:17:03Z) - Pixle: a fast and effective black-box attack based on rearranging pixels [15.705568893476947]
ブラックボックスの敵攻撃は攻撃モデルの内部構造を知ることなく行うことができる。
本稿では,攻撃画像内に少数の画素を並べ替えることで,高い割合のサンプルを正しく攻撃できる新たな攻撃法を提案する。
我々の攻撃は、多数のデータセットやモデルに作用し、少数の反復が必要であり、元のサンプルと逆のサンプルの間の距離が人間の目では無視可能であることを実証する。
論文 参考訳(メタデータ) (2022-02-04T17:03:32Z) - Identification of Attack-Specific Signatures in Adversarial Examples [62.17639067715379]
異なる攻撃アルゴリズムは, その効果だけでなく, 被害者の質的な影響も示している。
以上の結果から, 予測的対人攻撃は, 模擬モデルにおける成功率だけでなく, 被害者に対するより深い下流効果によって比較されるべきであることが示唆された。
論文 参考訳(メタデータ) (2021-10-13T15:40:48Z) - Normal vs. Adversarial: Salience-based Analysis of Adversarial Samples
for Relation Extraction [25.869746965410954]
私たちは、サリエンスベースの方法で敵のサンプルを分析するための第一歩を踏み出します。
サリエンストークンは、敵対的な摂動と直接相関があることを観察する。
ある程度、私たちのアプローチは敵対的なサンプルに対するキャラクターを明らかにします。
論文 参考訳(メタデータ) (2021-04-01T07:36:04Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - AdvJND: Generating Adversarial Examples with Just Noticeable Difference [3.638233924421642]
例に小さな摂動を加えると、優れたパフォーマンスモデルが工芸品の例を誤って分類する。
我々のAdvJNDアルゴリズムが生成した逆例は、元の入力に類似した分布を生成する。
論文 参考訳(メタデータ) (2020-02-01T09:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。