論文の概要: Adversarial Attack on Attackers: Post-Process to Mitigate Black-Box
Score-Based Query Attacks
- arxiv url: http://arxiv.org/abs/2205.12134v1
- Date: Tue, 24 May 2022 15:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 15:53:22.018702
- Title: Adversarial Attack on Attackers: Post-Process to Mitigate Black-Box
Score-Based Query Attacks
- Title(参考訳): 攻撃者に対する敵対的攻撃:ブラックボックススコアに基づくクエリ攻撃を軽減するためのポストプロセス
- Authors: Sizhe Chen, Zhehao Huang, Qinghua Tao, Yingwen Wu, Cihang Xie, Xiaolin
Huang
- Abstract要約: 本稿では,攻撃者に対する敵攻撃(AAA)という新たな防御策を提案し,SQAを誤った攻撃方向へ誘導する。
このように、SQAはモデルの最悪のケースの堅牢性に関係なく防止される。
- 参考スコア(独自算出の注目度): 25.053383672515697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The score-based query attacks (SQAs) pose practical threats to deep neural
networks by crafting adversarial perturbations within dozens of queries, only
using the model's output scores. Nonetheless, we note that if the loss trend of
the outputs is slightly perturbed, SQAs could be easily misled and thereby
become much less effective. Following this idea, we propose a novel defense,
namely Adversarial Attack on Attackers (AAA), to confound SQAs towards
incorrect attack directions by slightly modifying the output logits. In this
way, (1) SQAs are prevented regardless of the model's worst-case robustness;
(2) the original model predictions are hardly changed, i.e., no degradation on
clean accuracy; (3) the calibration of confidence scores can be improved
simultaneously. Extensive experiments are provided to verify the above
advantages. For example, by setting $\ell_\infty=8/255$ on CIFAR-10, our
proposed AAA helps WideResNet-28 secure $80.59\%$ accuracy under Square attack
($2500$ queries), while the best prior defense (i.e., adversarial training)
only attains $67.44\%$. Since AAA attacks SQA's general greedy strategy, such
advantages of AAA over 8 defenses can be consistently observed on 8
CIFAR-10/ImageNet models under 6 SQAs, using different attack targets and
bounds. Moreover, AAA calibrates better without hurting the accuracy. Our code
would be released.
- Abstract(参考訳): スコアベースクエリアタック(sqas)は、モデルの出力スコアのみを使用して、数十のクエリ内に敵の摂動を作り上げることで、ディープニューラルネットワークに実用的な脅威をもたらす。
それでも、出力の損失傾向がわずかに乱れた場合、SQAは容易に誤解され、その結果、はるかに効果が低下する可能性があることに留意する。
そこで本研究では,攻撃者に対する攻撃的攻撃(adversarial attack on attacks, aaa)という新たな防御手法を提案する。
このように、(1)最悪のケースの堅牢性にかかわらずSQAを防止し、(2)元のモデル予測をほとんど変更せず、すなわち、クリーンな精度の劣化がなく、(3)信頼度スコアの校正を同時に行うことができる。
上記の利点を検証するために広範な実験が行われている。
例えば、CIFAR-10に$\ell_\infty=8/255$を設定することで、提案されたAAAは、ワイドレスNet-28がSquare攻撃(2500$クエリ)下で80.59\%の精度を確保するのに役立ちます。
AAAがSQAの一般的な欲求戦略を攻撃しているため、AAAの8つの防御に対する優位性は、6つのSQAの下での8つのCIFAR-10/ImageNetモデルにおいて、異なる攻撃目標と境界を用いて一貫して観察することができる。
さらに、AAAは精度を損なわずに校正する。
私たちのコードはリリースされます。
関連論文リスト
- Gradient Masking All-at-Once: Ensemble Everything Everywhere Is Not Robust [65.95797963483729]
あらゆるものをアンサンブルすることは、敵の例に対する防御である。
この防御は敵の攻撃に対して堅牢ではないことを示す。
次に、標準的なアダプティブアタック技術を用いて、防御の堅牢な精度を低下させる。
論文 参考訳(メタデータ) (2024-11-22T10:17:32Z) - BruSLeAttack: A Query-Efficient Score-Based Black-Box Sparse Adversarial Attack [22.408968332454062]
モデルクエリに対するスコアベースの応答を単純に観察することで、スパース対逆サンプルを生成するという、独特であまりよく理解されていない問題について検討する。
この問題に対するBruSLeAttackアルゴリズムを開発した。
私たちの作業は、モデル脆弱性の迅速な評価を促進し、デプロイされたシステムの安全性、セキュリティ、信頼性に対する警戒を高めます。
論文 参考訳(メタデータ) (2024-04-08T08:59:26Z) - PubDef: Defending Against Transfer Attacks From Public Models [6.0012551318569285]
本稿では,公用サロゲートモデルによる転送攻撃を敵が頼りにする,新たな実用的脅威モデルを提案する。
本研究では,この環境での移動攻撃を評価し,ゲーム理論の観点から専門的な防御手法を提案する。
この脅威モデルの下では、我々の防衛であるPubDefは、最先端のホワイトボックス対敵訓練を、通常の精度でほとんど損なわない大きなマージンで上回っている。
論文 参考訳(メタデータ) (2023-10-26T17:58:08Z) - The Best Defense is a Good Offense: Adversarial Augmentation against
Adversarial Attacks [91.56314751983133]
A5$は、手元の入力に対する攻撃が失敗することを保証するために防御的摂動を構築するためのフレームワークである。
我々は,地上の真理ラベルを無視するロバスト化ネットワークを用いて,実機での防御強化を効果的に示す。
また、A5$を適用して、確実に堅牢な物理オブジェクトを作成する方法も示します。
論文 参考訳(メタデータ) (2023-05-23T16:07:58Z) - Alternating Objectives Generates Stronger PGD-Based Adversarial Attacks [78.2700757742992]
Projected Gradient Descent (PGD) は、そのような敵を生成するための最も効果的で概念的にシンプルなアルゴリズムの1つである。
この主張を合成データの例で実験的に検証し、提案手法を25の$ell_infty$-robustモデルと3つのデータセットで評価した。
私たちの最強の敵攻撃は、AutoAttackアンサンブルのすべてのホワイトボックスコンポーネントより優れています。
論文 参考訳(メタデータ) (2022-12-15T17:44:31Z) - Unifying Gradients to Improve Real-world Robustness for Deep Networks [28.94112170725205]
我々は,異なるデータのグラディエント(Unified Gradients,UniG)を統一した実世界の防衛法を提案する。
UniGは、攻撃者がツイストされ、情報に乏しい攻撃方向を示す。
プラグアンドプレイの製品モジュールであるHadamardでUniGを効率的に実装する。
論文 参考訳(メタデータ) (2022-08-12T11:41:56Z) - Practical Evaluation of Adversarial Robustness via Adaptive Auto Attack [96.50202709922698]
実用的な評価手法は、便利な(パラメータフリー)、効率的な(イテレーションの少ない)、信頼性を持つべきである。
本稿では,パラメータフリーな適応オートアタック (A$3$) 評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-10T04:53:54Z) - Composite Adversarial Attacks [57.293211764569996]
敵対攻撃は、機械学習(ML)モデルを欺くための技術です。
本論文では,攻撃アルゴリズムの最適組み合わせを自動的に探索するための複合攻撃法(Composite Adrial Attack,CAA)を提案する。
CAAは11の防衛でトップ10の攻撃を破り、時間の経過は少ない。
論文 参考訳(メタデータ) (2020-12-10T03:21:16Z) - RayS: A Ray Searching Method for Hard-label Adversarial Attack [99.72117609513589]
我々は、レイサーチ攻撃(RayS)を提案し、これはハードラベル攻撃の有効性と効率を大幅に改善する。
モデルの正当性チェックとしても使用できる。
論文 参考訳(メタデータ) (2020-06-23T07:01:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。