論文の概要: Enhancing Adversarial Transferability with Adversarial Weight Tuning
- arxiv url: http://arxiv.org/abs/2408.09469v1
- Date: Sun, 18 Aug 2024 13:31:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 20:30:46.938862
- Title: Enhancing Adversarial Transferability with Adversarial Weight Tuning
- Title(参考訳): 対向重み調整による対向移動性の向上
- Authors: Jiahao Chen, Zhou Feng, Rui Zeng, Yuwen Pu, Chunyi Zhou, Yi Jiang, Yuyou Gan, Jinbao Li, Shouling Ji, Shouling_Ji,
- Abstract要約: 敵対的な例(AE)は、人間の観察者に対して良心を抱きながらモデルを誤解させた。
AWTは、勾配に基づく攻撃法とモデルに基づく攻撃法を組み合わせて、AEの転送可能性を高めるデータフリーチューニング手法である。
- 参考スコア(独自算出の注目度): 34.93719684767521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) are vulnerable to adversarial examples (AEs) that mislead the model while appearing benign to human observers. A critical concern is the transferability of AEs, which enables black-box attacks without direct access to the target model. However, many previous attacks have failed to explain the intrinsic mechanism of adversarial transferability. In this paper, we rethink the property of transferable AEs and reformalize the formulation of transferability. Building on insights from this mechanism, we analyze the generalization of AEs across models with different architectures and prove that we can find a local perturbation to mitigate the gap between surrogate and target models. We further establish the inner connections between model smoothness and flat local maxima, both of which contribute to the transferability of AEs. Further, we propose a new adversarial attack algorithm, \textbf{A}dversarial \textbf{W}eight \textbf{T}uning (AWT), which adaptively adjusts the parameters of the surrogate model using generated AEs to optimize the flat local maxima and model smoothness simultaneously, without the need for extra data. AWT is a data-free tuning method that combines gradient-based and model-based attack methods to enhance the transferability of AEs. Extensive experiments on a variety of models with different architectures on ImageNet demonstrate that AWT yields superior performance over other attacks, with an average increase of nearly 5\% and 10\% attack success rates on CNN-based and Transformer-based models, respectively, compared to state-of-the-art attacks.
- Abstract(参考訳): ディープニューラルネットワーク(Deep Neural Network, DNN)は、人間の観察者に優劣を感じながらモデルを誤解させる敵の例(AE)に対して脆弱である。
重要な懸念事項は、ターゲットモデルに直接アクセスすることなくブラックボックス攻撃を可能にするAEsの転送性である。
しかし, 従来の攻撃の多くは, 対向移動性の本質的なメカニズムを説明できなかった。
本稿では、転送可能なAEの特性を再考し、転送可能性の定式化を改定する。
このメカニズムから得られた知見に基づいて、異なるアーキテクチャを持つモデル間のAEの一般化を分析し、サロゲートとターゲットモデルのギャップを軽減するための局所摂動を見つけることができることを示す。
さらに、モデル滑らか性と平坦な局所最大値との間の内部接続を確立し、これらがAEsの伝達性に寄与する。
さらに,生成されたAEを用いて代理モデルのパラメータを適応的に調整し,局所的な局所的な最大値と滑らかさを同時に最適化する,新しい逆攻撃アルゴリズムである \textbf{A}dversarial \textbf{W}eight \textbf{T}uning (AWT)を提案する。
AWTは、勾配に基づく攻撃法とモデルに基づく攻撃法を組み合わせて、AEの転送可能性を高めるデータフリーチューニング手法である。
ImageNet上で異なるアーキテクチャを持つさまざまなモデルに対する大規模な実験により、AWTは他の攻撃よりも優れたパフォーマンスを示し、CNNベースのモデルとTransformerベースのモデルでは、それぞれ平均5倍と10倍の攻撃成功率が上昇している。
関連論文リスト
- Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - OMG-ATTACK: Self-Supervised On-Manifold Generation of Transferable
Evasion Attacks [17.584752814352502]
Evasion Attacks (EA) は、入力データを歪ませることで、トレーニングされたニューラルネットワークの堅牢性をテストするために使用される。
本稿では, 自己教師型, 計算的経済的な手法を用いて, 対逆例を生成する手法を提案する。
我々の実験は、この手法が様々なモデル、目に見えないデータカテゴリ、さらには防御されたモデルで有効であることを一貫して実証している。
論文 参考訳(メタデータ) (2023-10-05T17:34:47Z) - An Adaptive Model Ensemble Adversarial Attack for Boosting Adversarial
Transferability [26.39964737311377]
我々はAdaEAと呼ばれる適応型アンサンブル攻撃を提案し、各モデルからの出力の融合を適応的に制御する。
我々は、様々なデータセットに対する既存のアンサンブル攻撃よりも大幅に改善した。
論文 参考訳(メタデータ) (2023-08-05T15:12:36Z) - GNP Attack: Transferable Adversarial Examples via Gradient Norm Penalty [14.82389560064876]
良好な転送性を持つ敵例(AE)は、多様なターゲットモデルに対する実用的なブラックボックス攻撃を可能にする。
GNP(Gradient Norm Penalty)を用いた新しいAE転送性向上手法を提案する。
11種類の最先端のディープラーニングモデルと6つの高度な防御手法を攻撃することにより、GNPは高い転送性を持つAEを生成するのに非常に有効であることを示す。
論文 参考訳(メタデータ) (2023-07-09T05:21:31Z) - On the Transferability of Adversarial Examples between Encrypted Models [20.03508926499504]
敵の堅牢な防御のために暗号化されたモデルの転送可能性について, 初めて検討した。
画像分類実験において、暗号化されたモデルの使用は、AEsに対して堅牢であるだけでなく、AEsの影響を低減することも確認されている。
論文 参考訳(メタデータ) (2022-09-07T08:50:26Z) - CARBEN: Composite Adversarial Robustness Benchmark [70.05004034081377]
本稿では,複合対向攻撃 (CAA) が画像に与える影響を実証する。
異なるモデルのリアルタイム推論を提供し、攻撃レベルのパラメータの設定を容易にする。
CAAに対する敵対的堅牢性を評価するためのリーダーボードも導入されている。
論文 参考訳(メタデータ) (2022-07-16T01:08:44Z) - Learning to Learn Transferable Attack [77.67399621530052]
転送逆行攻撃は非自明なブラックボックス逆行攻撃であり、サロゲートモデル上で敵の摂動を発生させ、そのような摂動を被害者モデルに適用することを目的としている。
本研究では,データとモデル拡張の両方から学習することで,敵の摂動をより一般化する学習可能な攻撃学習法(LLTA)を提案する。
提案手法の有効性を実証し, 現状の手法と比較して, 12.85%のトランスファー攻撃の成功率で検証した。
論文 参考訳(メタデータ) (2021-12-10T07:24:21Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - Boosting Black-Box Attack with Partially Transferred Conditional
Adversarial Distribution [83.02632136860976]
深層ニューラルネットワーク(DNN)に対するブラックボックス攻撃の研究
我々は, 代理バイアスに対して頑健な, 対向移動可能性の新たなメカニズムを開発する。
ベンチマークデータセットの実験と実世界のAPIに対する攻撃は、提案手法の優れた攻撃性能を示す。
論文 参考訳(メタデータ) (2020-06-15T16:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。