論文の概要: Towards Interpretable Adversarial Examples via Sparse Adversarial Attack
- arxiv url: http://arxiv.org/abs/2506.17250v1
- Date: Sun, 08 Jun 2025 09:13:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.825252
- Title: Towards Interpretable Adversarial Examples via Sparse Adversarial Attack
- Title(参考訳): スパース・アタックによる解釈可能な敵の事例に向けて
- Authors: Fudong Lin, Jiadong Lou, Hao Wang, Brian Jalaian, Xu Yuan,
- Abstract要約: スパース攻撃は、ディープニューラルネットワーク(DNN)を騙すための敵の摂動の大きさを最適化する
既存の解は、その疎度が低いために解釈可能な逆の例が得られない。
本稿では,初期摂動の大きさを最小化して,CNNの脆弱性を理解するためのスパースアタックを開発することを目的とする。
- 参考スコア(独自算出の注目度): 22.588476144401977
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sparse attacks are to optimize the magnitude of adversarial perturbations for fooling deep neural networks (DNNs) involving only a few perturbed pixels (i.e., under the l0 constraint), suitable for interpreting the vulnerability of DNNs. However, existing solutions fail to yield interpretable adversarial examples due to their poor sparsity. Worse still, they often struggle with heavy computational overhead, poor transferability, and weak attack strength. In this paper, we aim to develop a sparse attack for understanding the vulnerability of CNNs by minimizing the magnitude of initial perturbations under the l0 constraint, to overcome the existing drawbacks while achieving a fast, transferable, and strong attack to DNNs. In particular, a novel and theoretical sound parameterization technique is introduced to approximate the NP-hard l0 optimization problem, making directly optimizing sparse perturbations computationally feasible. Besides, a novel loss function is designed to augment initial perturbations by maximizing the adversary property and minimizing the number of perturbed pixels simultaneously. Extensive experiments are conducted to demonstrate that our approach, with theoretical performance guarantees, outperforms state-of-the-art sparse attacks in terms of computational overhead, transferability, and attack strength, expecting to serve as a benchmark for evaluating the robustness of DNNs. In addition, theoretical and empirical results validate that our approach yields sparser adversarial examples, empowering us to discover two categories of noises, i.e., "obscuring noise" and "leading noise", which will help interpret how adversarial perturbation misleads the classifiers into incorrect predictions. Our code is available at https://github.com/fudong03/SparseAttack.
- Abstract(参考訳): スパース攻撃は、DNNの脆弱性を解釈するのに適した少数の摂動ピクセル(すなわちl0制約の下で)を含むディープニューラルネットワーク(DNN)を騙すために、敵の摂動の大きさを最適化することである。
しかし、既存の解は、その疎度が低いために解釈可能な逆の例が得られない。
さらに悪いことに、重い計算オーバーヘッド、低い転送性、弱い攻撃力に悩まされることが多い。
本稿では,L0制約の下での初期摂動の大きさを最小化して,CNNの脆弱性を理解するためのスパースアタックを開発し,高速で移動可能で強力なDNN攻撃を達成しつつ,既存の欠点を克服することを目的とする。
特に、NP-hard l0最適化問題を近似するために、新しい理論的音響パラメータ化手法を導入し、スパース摂動を直接計算可能とした。
また、対向特性を最大化し、同時に摂動画素数を最小化することにより、初期摂動を増大させる新規な損失関数を設計する。
提案手法は,DNNのロバスト性を評価するためのベンチマークとして,計算オーバーヘッド,転送可能性,攻撃強度の観点から,理論的性能保証とともに,最先端のスパース攻撃よりも優れることを示した。
さらに、理論的および実証的な結果は、我々のアプローチがスペーサーの逆の例を生み出すことを証明し、"オブスカーリングノイズ"と"リードノイズ"の2つのカテゴリを発見できるようにする。
私たちのコードはhttps://github.com/fudong03/SparseAttack.comで利用可能です。
関連論文リスト
- Evaluating Model Robustness Using Adaptive Sparse L0 Regularization [5.772716337390152]
敵の例は、機能の最小限のサブセットを変更することで、既存の防御に挑戦します。
現在のL0標準攻撃手法は、精度と効率のトレードオフに直面している。
本稿では,L0ノルムを基準として,新たな,スケーラブルで効果的な逆例生成手法を提案する。
論文 参考訳(メタデータ) (2024-08-28T11:02:23Z) - STBA: Towards Evaluating the Robustness of DNNs for Query-Limited Black-box Scenario [50.37501379058119]
本研究では,クエリ制限シナリオにおいて,悪意のある逆の例を作成するために,空間変換ブラックボックス攻撃(STBA)を提案する。
そこで本研究では,STBAが対向例の認識不能性を効果的に改善し,クエリ制限条件下での攻撃成功率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-03-30T13:28:53Z) - Improved and Interpretable Defense to Transferred Adversarial Examples
by Jacobian Norm with Selective Input Gradient Regularization [31.516568778193157]
ディープニューラルネットワーク(DNN)の堅牢性を改善するために、AT(Adversarial Training)がよく用いられる。
本研究では,ジャコビアンノルムと選択的入力勾配正規化(J-SIGR)に基づくアプローチを提案する。
実験により、提案したJ-SIGRは、転送された敵攻撃に対するロバスト性を向上し、ニューラルネットワークからの予測が容易に解釈できることが示されている。
論文 参考訳(メタデータ) (2022-07-09T01:06:41Z) - Meta Adversarial Perturbations [66.43754467275967]
メタ逆境摂動(MAP)の存在を示す。
MAPは1段階の上昇勾配更新によって更新された後、自然画像を高い確率で誤分類する。
これらの摂動は画像に依存しないだけでなく、モデルに依存しないものであり、単一の摂動は見えないデータポイントと異なるニューラルネットワークアーキテクチャにまたがってうまく一般化される。
論文 参考訳(メタデータ) (2021-11-19T16:01:45Z) - Sparse and Imperceptible Adversarial Attack via a Homotopy Algorithm [93.80082636284922]
少数の敵対的攻撃は、数ピクセルを摂動するだけでディープ・ネットワーク(DNN)を騙すことができる。
近年の取り組みは、他の等級のl_infty摂動と組み合わせている。
本稿では,空間的・神経的摂動に対処するホモトピーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-10T20:11:36Z) - Generating Adversarial Examples with Graph Neural Networks [26.74003742013481]
両手法の強みを生かしたグラフニューラルネットワーク(GNN)に基づく新たな攻撃を提案する。
PGDアタック,MI-FGSM,Carini,Wagnerアタックなど,最先端の敵攻撃に勝っていることを示す。
我々は、敵攻撃のより実証的な比較を可能にするために特別に設計された、新しい挑戦的なデータセットを提供する。
論文 参考訳(メタデータ) (2021-05-30T22:46:41Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z) - Network Moments: Extensions and Sparse-Smooth Attacks [59.24080620535988]
ガウス入力を受ける小片方向線形(PL)ネットワーク(Affine,ReLU,Affine)の第1モーメントと第2モーメントの正確な解析式を導出する。
本研究では,新しい分散式を効率的に近似し,より厳密な分散推定を行うことを示す。
論文 参考訳(メタデータ) (2020-06-21T11:36:41Z) - On the Matrix-Free Generation of Adversarial Perturbations for Black-Box
Attacks [1.199955563466263]
本稿では,ブラックボックス攻撃に適用可能な,このような対向的摂動の実用的な生成法を提案する。
攻撃者は、内部機能を起動したり、ディープニューラルネットワークの内部状態にアクセスしたりすることなく、そのような摂動を発生させる。
論文 参考訳(メタデータ) (2020-02-18T00:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。