論文の概要: Certifiable Black-Box Attacks with Randomized Adversarial Examples: Breaking Defenses with Provable Confidence
- arxiv url: http://arxiv.org/abs/2304.04343v2
- Date: Fri, 5 Jul 2024 15:27:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 03:12:39.059066
- Title: Certifiable Black-Box Attacks with Randomized Adversarial Examples: Breaking Defenses with Provable Confidence
- Title(参考訳): ランダムな敵の例で証明可能なブラックボックス攻撃:確率的信頼で防御を破る
- Authors: Hanbin Hong, Xinyu Zhang, Binghui Wang, Zhongjie Ba, Yuan Hong,
- Abstract要約: ブラックボックスの敵攻撃は、機械学習モデルを逆転させる強い可能性を示している。
証明可能な保証付きブラックボックス攻撃の新たなパラダイムについて検討する。
この新しいブラックボックス攻撃は、機械学習モデルの重大な脆弱性を露呈する。
- 参考スコア(独自算出の注目度): 34.35162562625252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Black-box adversarial attacks have shown strong potential to subvert machine learning models. Existing black-box attacks craft adversarial examples by iteratively querying the target model and/or leveraging the transferability of a local surrogate model. Recently, such attacks can be effectively mitigated by state-of-the-art (SOTA) defenses, e.g., detection via the pattern of sequential queries, or injecting noise into the model. To our best knowledge, we take the first step to study a new paradigm of black-box attacks with provable guarantees -- certifiable black-box attacks that can guarantee the attack success probability (ASP) of adversarial examples before querying over the target model. This new black-box attack unveils significant vulnerabilities of machine learning models, compared to traditional empirical black-box attacks, e.g., breaking strong SOTA defenses with provable confidence, constructing a space of (infinite) adversarial examples with high ASP, and the ASP of the generated adversarial examples is theoretically guaranteed without verification/queries over the target model. Specifically, we establish a novel theoretical foundation for ensuring the ASP of the black-box attack with randomized adversarial examples (AEs). Then, we propose several novel techniques to craft the randomized AEs while reducing the perturbation size for better imperceptibility. Finally, we have comprehensively evaluated the certifiable black-box attacks on the CIFAR10/100, ImageNet, and LibriSpeech datasets, while benchmarking with 16 SOTA empirical black-box attacks, against various SOTA defenses in the domains of computer vision and speech recognition. Both theoretical and experimental results have validated the significance of the proposed attack.
- Abstract(参考訳): ブラックボックスの敵攻撃は、機械学習モデルを逆転させる強い可能性を示している。
既存のブラックボックス攻撃は、ターゲットモデルを反復的にクエリし、またはローカルサロゲートモデルの転送可能性を活用することで、敵の例を作成する。
近年、このような攻撃は、例えば、シーケンシャルクエリのパターンによる検出、モデルへのノイズ注入など、最先端のSOTA(State-of-the-art)ディフェンスによって効果的に軽減できる。
我々の知る限り、我々は、証明可能な保証を備えたブラックボックス攻撃の新しいパラダイム、すなわち、ターゲットモデルに問い合わせる前に、敵のサンプルの攻撃成功確率(ASP)を保証する認証されたブラックボックス攻撃を研究するための第一歩を踏み出します。
この新たなブラックボックス攻撃は、従来の経験的ブラックボックス攻撃と比較して、マシンラーニングモデルの重大な脆弱性を明らかにしている。例えば、強力なSOTA防御を証明可能な信頼性で破り、高いASPで(無限の)敵例の空間を構築し、生成された敵例のASPは、ターゲットモデルに対する検証/クエリなしで理論的に保証される。
具体的には,無作為な敵対例 (AE) によるブラックボックス攻撃の ASP を確保するための新たな理論基盤を確立する。
そこで本研究では,乱れサイズの低減を図りつつ,ランダム化されたAEを製作する新しい手法を提案する。
最後に,CIFAR10/100, ImageNet, LibriSpeechデータセットに対する認証ブラックボックス攻撃を,コンピュータビジョンと音声認識の領域における様々なSOTA防御に対する16のSOTA実験ブラックボックス攻撃とベンチマークで総合的に評価した。
理論的および実験的な結果により、提案された攻撃の重要性が検証された。
関連論文リスト
- BruSLeAttack: A Query-Efficient Score-Based Black-Box Sparse Adversarial Attack [22.408968332454062]
モデルクエリに対するスコアベースの応答を単純に観察することで、スパース対逆サンプルを生成するという、独特であまりよく理解されていない問題について検討する。
この問題に対するBruSLeAttackアルゴリズムを開発した。
私たちの作業は、モデル脆弱性の迅速な評価を促進し、デプロイされたシステムの安全性、セキュリティ、信頼性に対する警戒を高めます。
論文 参考訳(メタデータ) (2024-04-08T08:59:26Z) - A Random Ensemble of Encrypted Vision Transformers for Adversarially
Robust Defense [6.476298483207895]
ディープニューラルネットワーク(DNN)は、敵の例(AE)に弱いことがよく知られている。
ホワイトボックス攻撃とブラックボックス攻撃の双方に対してロバスト性を高めるために,暗号化されたモデルのランダムアンサンブルである視覚変換器(ViT)を用いた新しい手法を提案する。
実験では, 画像分類作業において, ホワイトボックス攻撃だけでなくブラックボックス攻撃に対しても頑健であることが実証された。
論文 参考訳(メタデータ) (2024-02-11T12:35:28Z) - Understanding the Robustness of Randomized Feature Defense Against
Query-Based Adversarial Attacks [23.010308600769545]
ディープニューラルネットワークは、元の画像に近いサンプルを見つける敵の例に弱いが、モデルを誤分類させる可能性がある。
モデル中間層における隠れた特徴にランダムノイズを付加することにより,ブラックボックス攻撃に対する簡易かつ軽量な防御法を提案する。
本手法は,スコアベースと決定ベースの両方のブラックボックス攻撃に対するモデルのレジリエンスを効果的に向上させる。
論文 参考訳(メタデータ) (2023-10-01T03:53:23Z) - Ensemble-based Blackbox Attacks on Dense Prediction [16.267479602370543]
慎重に設計されたアンサンブルは、多くの犠牲者モデルに対して効果的な攻撃を発生させることができることを示す。
特に,個々のモデルに対する重み付けの正規化が,攻撃の成功に重要な役割を担っていることを示す。
提案手法は同時に複数のブラックボックス検出とセグメンテーションモデルを騙すことができる単一摂動を生成することができる。
論文 参考訳(メタデータ) (2023-03-25T00:08:03Z) - Stateful Defenses for Machine Learning Models Are Not Yet Secure Against
Black-box Attacks [28.93464970650329]
我々は、ステートフルディフェンスモデル(SDM)が、新しいタイプの適応ブラックボックス攻撃に対して非常に脆弱であることを示す。
我々はOracle-Guided Adaptive Rejection Smpling (OARS)と呼ばれる新しい適応ブラックボックス攻撃戦略を提案する。
本研究では,6つの共通ブラックボックス攻撃を強化する戦略を,現行のSDMに対して効果的に適用する方法を示す。
論文 参考訳(メタデータ) (2023-03-11T02:10:21Z) - Towards Lightweight Black-Box Attacks against Deep Neural Networks [70.9865892636123]
ブラックボックス攻撃は、いくつかのテストサンプルしか利用できない実用的な攻撃を引き起こす可能性があると我々は主張する。
いくつかのサンプルが必要なので、これらの攻撃を軽量なブラックボックス攻撃と呼ぶ。
近似誤差を軽減するために,Error TransFormer (ETF) を提案する。
論文 参考訳(メタデータ) (2022-09-29T14:43:03Z) - Local Black-box Adversarial Attacks: A Query Efficient Approach [64.98246858117476]
アドリアックは、セキュリティに敏感なシナリオにおけるディープニューラルネットワークの適用を脅かしている。
ブラックボックス攻撃における限られたクエリ内でのみクリーンな例の識別領域を摂動させる新しいフレームワークを提案する。
攻撃成功率の高いブラックボックス摂動時のクエリ効率を大幅に改善できることを示すため,広範な実験を行った。
論文 参考訳(メタデータ) (2021-01-04T15:32:16Z) - Improving Query Efficiency of Black-box Adversarial Attack [75.71530208862319]
ニューラルプロセスに基づくブラックボックス対逆攻撃(NP-Attack)を提案する。
NP-Attackはブラックボックス設定でクエリ数を大幅に削減できる。
論文 参考訳(メタデータ) (2020-09-24T06:22:56Z) - Adversarial Example Games [51.92698856933169]
Adrial Example Games (AEG) は、敵の例の製作をモデル化するフレームワークである。
AEGは、ある仮説クラスからジェネレータとアバーサを反対に訓練することで、敵の例を設計する新しい方法を提供する。
MNIST と CIFAR-10 データセットに対する AEG の有効性を示す。
論文 参考訳(メタデータ) (2020-07-01T19:47:23Z) - Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised
Learning [71.17774313301753]
本研究では,自己指導型高水準表現の堅牢性について,敵攻撃に対する防御に利用して検討する。
ASVspoof 2019データセットの実験結果は、Mockingjayによって抽出されたハイレベルな表現が、敵の例の転送可能性を妨げることを示した。
論文 参考訳(メタデータ) (2020-06-05T03:03:06Z) - Spanning Attack: Reinforce Black-box Attacks with Unlabeled Data [96.92837098305898]
Black-box攻撃は、機械学習モデルのインプット・アウトプットペアをクエリすることで、敵の摂動を発生させることを目的としている。
ブラックボックス攻撃はしばしば、入力空間の高次元性のためにクエリ非効率性の問題に悩まされる。
本研究では,低次元部分空間における逆摂動を,補助的なラベルのないデータセットに分散させることで抑制するスパンニング攻撃と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-11T05:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。