論文の概要: Reverse engineering adversarial attacks with fingerprints from
adversarial examples
- arxiv url: http://arxiv.org/abs/2301.13869v1
- Date: Tue, 31 Jan 2023 18:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 15:18:22.881780
- Title: Reverse engineering adversarial attacks with fingerprints from
adversarial examples
- Title(参考訳): 反対例からの指紋を用いたリバースエンジニアリング逆行攻撃
- Authors: David Aaron Nicholson (1), Vincent Emanuele (1) ((1) Embedded
Intelligence)
- Abstract要約: 我々は、敵の例を分類するためにディープニューラルネットワークを訓練する。
JPEGアルゴリズムは単純だが効果的な指紋認証として機能する。
我々は、我々のアプローチが無知で学習可能な指紋を攻撃し、未知の攻撃を伴うオープンワールドシナリオにどのように拡張できるかについて議論する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In spite of intense research efforts, deep neural networks remain vulnerable
to adversarial examples: an input that forces the network to confidently
produce incorrect outputs. Adversarial examples are typically generated by an
attack algorithm that optimizes a perturbation added to a benign input. Many
such algorithms have been developed. If it were possible to reverse engineer
attack algorithms from adversarial examples, this could deter bad actors
because of the possibility of attribution. Here we formulate reverse
engineering as a supervised learning problem where the goal is to assign an
adversarial example to a class that represents the algorithm and parameters
used. To our knowledge it has not been previously shown whether this is even
possible. We first test whether we can classify the perturbations added to
images by attacks on undefended single-label image classification models.
Taking a ``fight fire with fire'' approach, we leverage the sensitivity of deep
neural networks to adversarial examples, training them to classify these
perturbations. On a 17-class dataset (5 attacks, 4 bounded with 4 epsilon
values each), we achieve an accuracy of 99.4\% with a ResNet50 model trained on
the perturbations. We then ask whether we can perform this task without access
to the perturbations, obtaining an estimate of them with signal processing
algorithms, an approach we call ``fingerprinting''. We find the JPEG algorithm
serves as a simple yet effective fingerprinter (85.05\% accuracy), providing a
strong baseline for future work. We discuss how our approach can be extended to
attack agnostic, learnable fingerprints, and to open-world scenarios with
unknown attacks.
- Abstract(参考訳): 強い研究努力にもかかわらず、ディープニューラルネットワークは敵の例に弱いままである。
逆例は典型的には、良性入力に追加される摂動を最適化する攻撃アルゴリズムによって生成される。
多くのアルゴリズムが開発されている。
もし敵の例から攻撃アルゴリズムをリバースエンジニアリングできるなら、帰属の可能性から悪役を抑えることができる。
ここでは,アルゴリズムやパラメータを表すクラスに逆例を割り当てることを目的として,教師付き学習問題としてリバースエンジニアリングを定式化する。
我々の知る限り、これが可能かどうかは以前にも示されていない。
まず,無防備な単一ラベル画像分類モデルに対する攻撃により,画像に付加される摂動を分類できるかどうかを検証する。
のアプローチをとることで、深層ニューラルネットワークの感度を敵の例に利用し、これらの摂動を分類するように訓練します。
17クラスのデータセット(それぞれ4つのepsilon値で区切られた5つの攻撃)では、摂動でトレーニングされたresnet50モデルで99.4\%の精度を達成している。
次に、このタスクを摂動にアクセスせずに実行可能かどうかを問うとともに、信号処理アルゴリズムを用いてそれらの推定値を得る。
JPEGアルゴリズムは単純だが効果的な指紋認証(85.05\%の精度)として機能し、将来の作業に強力なベースラインを提供する。
我々は,無知で学習可能な指紋や,未知の攻撃を伴うオープンワールドシナリオに対して,我々のアプローチがどのように拡張されるかについて議論する。
関連論文リスト
- Wasserstein distributional robustness of neural networks [9.79503506460041]
ディープニューラルネットワークは敵攻撃(AA)に弱いことが知られている
画像認識タスクでは、元の小さな摂動によって画像が誤分類される可能性がある。
本稿では,Wassersteinの分散ロバスト最適化(DRO)技術を用いて問題を再検討し,新しいコントリビューションを得た。
論文 参考訳(メタデータ) (2023-06-16T13:41:24Z) - SAIF: Sparse Adversarial and Imperceptible Attack Framework [7.025774823899217]
Sparse Adversarial and Interpretable Attack Framework (SAIF) と呼ばれる新しい攻撃手法を提案する。
具体的には、少数の画素で低次摂動を含む知覚不能な攻撃を設計し、これらのスパース攻撃を利用して分類器の脆弱性を明らかにする。
SAIFは、非常に受け入れ難い、解釈可能な敵の例を計算し、ImageNetデータセット上で最先端のスパース攻撃手法より優れている。
論文 参考訳(メタデータ) (2022-12-14T20:28:50Z) - Identification of Attack-Specific Signatures in Adversarial Examples [62.17639067715379]
異なる攻撃アルゴリズムは, その効果だけでなく, 被害者の質的な影響も示している。
以上の結果から, 予測的対人攻撃は, 模擬モデルにおける成功率だけでなく, 被害者に対するより深い下流効果によって比較されるべきであることが示唆された。
論文 参考訳(メタデータ) (2021-10-13T15:40:48Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z) - Improving Transformation-based Defenses against Adversarial Examples
with First-order Perturbations [16.346349209014182]
研究によると、ニューラルネットワークは敵の攻撃を受けやすい。
これにより、ニューラルネットワークベースのインテリジェントシステムに対する潜在的な脅威が露呈する。
本稿では, 対向性強靭性を改善するために, 対向性摂動に対処する手法を提案する。
論文 参考訳(メタデータ) (2021-03-08T06:27:24Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - An Empirical Review of Adversarial Defenses [0.913755431537592]
このようなシステムの基礎を形成するディープニューラルネットワークは、敵対攻撃と呼ばれる特定のタイプの攻撃に非常に影響を受けやすい。
ハッカーは、最小限の計算でも、敵対的な例(他のクラスに属するイメージやデータポイント)を生成し、そのようなアルゴリズムの基礎を崩壊させることができます。
本稿では,DropoutとDenoising Autoencodersの2つの効果的な手法を示し,そのような攻撃がモデルを騙すのを防ぐことに成功したことを示す。
論文 参考訳(メタデータ) (2020-12-10T09:34:41Z) - MixNet for Generalized Face Presentation Attack Detection [63.35297510471997]
我々は、プレゼンテーションアタックを検出するための、TextitMixNetと呼ばれるディープラーニングベースのネットワークを提案している。
提案アルゴリズムは最先端の畳み込みニューラルネットワークアーキテクチャを利用して,各攻撃カテゴリの特徴マッピングを学習する。
論文 参考訳(メタデータ) (2020-10-25T23:01:13Z) - Online Alternate Generator against Adversarial Attacks [144.45529828523408]
ディープラーニングモデルは、実際の画像に準知覚可能なノイズを加えることによって合成される敵の例に非常に敏感である。
対象ネットワークのパラメータをアクセスしたり変更したりする必要のない,ポータブルな防御手法であるオンライン代替ジェネレータを提案する。
提案手法は,入力画像のスクラッチから別の画像をオンライン合成することで,対向雑音を除去・破壊する代わりに機能する。
論文 参考訳(メタデータ) (2020-09-17T07:11:16Z) - Evaluating a Simple Retraining Strategy as a Defense Against Adversarial
Attacks [17.709146615433458]
我々は、KNNのような単純なアルゴリズムが、再トレーニングに必要な逆画像のラベルを決定するためにどのように使用できるかを示す。
CIFAR-10とTinyImageNetという2つの標準データセットで結果を示す。
論文 参考訳(メタデータ) (2020-07-20T07:49:33Z) - Patch-wise Attack for Fooling Deep Neural Network [153.59832333877543]
我々は,一般的な訓練と防御モデルに対するブラックボックス攻撃であるパッチワイド反復アルゴリズムを提案する。
我々は、防衛モデルで9.2%、通常訓練されたモデルで3.7%、成功率で著しく改善した。
論文 参考訳(メタデータ) (2020-07-14T01:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。