論文の概要: Seeking Flat Minima over Diverse Surrogates for Improved Adversarial Transferability: A Theoretical Framework and Algorithmic Instantiation
- arxiv url: http://arxiv.org/abs/2504.16474v1
- Date: Wed, 23 Apr 2025 07:33:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.035678
- Title: Seeking Flat Minima over Diverse Surrogates for Improved Adversarial Transferability: A Theoretical Framework and Algorithmic Instantiation
- Title(参考訳): 逆転性向上のための異種サーロゲート上のフラットミニマの探索 : 理論的枠組みとアルゴリズム的検証
- Authors: Meixi Zheng, Kehan Wu, Yanbo Fan, Rui Huang, Baoyuan Wu,
- Abstract要約: 本稿では, 対向転送可能性の証明可能な保証を提供する新しい転送可能性バウンダリを提案する。
以上の結果から,AEsをSurrogateモデル集合上の平らな最小値に最適化すると同時に,Surrogate-Targetモデルシフトを逆モデル不一致で制御することにより,AEの転送性に対する包括的保証が得られることが示唆された。
- 参考スコア(独自算出の注目度): 38.12499933796839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transfer-based black-box adversarial attack setting poses the challenge of crafting an adversarial example (AE) on known surrogate models that remain effective against unseen target models. Due to the practical importance of this task, numerous methods have been proposed to address this challenge. However, most previous methods are heuristically designed and intuitively justified, lacking a theoretical foundation. To bridge this gap, we derive a novel transferability bound that offers provable guarantees for adversarial transferability. Our theoretical analysis has the advantages of \textit{(i)} deepening our understanding of previous methods by building a general attack framework and \textit{(ii)} providing guidance for designing an effective attack algorithm. Our theoretical results demonstrate that optimizing AEs toward flat minima over the surrogate model set, while controlling the surrogate-target model shift measured by the adversarial model discrepancy, yields a comprehensive guarantee for AE transferability. The results further lead to a general transfer-based attack framework, within which we observe that previous methods consider only partial factors contributing to the transferability. Algorithmically, inspired by our theoretical results, we first elaborately construct the surrogate model set in which models exhibit diverse adversarial vulnerabilities with respect to AEs to narrow an instantiated adversarial model discrepancy. Then, a \textit{model-Diversity-compatible Reverse Adversarial Perturbation} (DRAP) is generated to effectively promote the flatness of AEs over diverse surrogate models to improve transferability. Extensive experiments on NIPS2017 and CIFAR-10 datasets against various target models demonstrate the effectiveness of our proposed attack.
- Abstract(参考訳): トランスファーベースのブラックボックスの敵攻撃設定は、未知の標的モデルに対して有効である既知のサロゲートモデル上で敵の例(AE)を作成するという課題を生んでいる。
この課題の実践的重要性から,この問題に対処するための多くの手法が提案されている。
しかし、これまでのほとんどの手法はヒューリスティックに設計され直観的に正当化され、理論的な基礎が欠如している。
このギャップを埋めるために、敵の移動可能性の証明可能な保証を提供する新しい移動可能性境界を導出する。
我々の理論解析は \textit{ の利点がある
i) 一般的なアタックフレームワークと \textit{ を構築することで、以前のメソッドの理解を深める。
(ii) 効果的な攻撃アルゴリズムを設計するためのガイダンスを提供する。
以上の結果から,AEsをSurrogateモデル集合上の平らな最小値に最適化すると同時に,Surrogate-Targetモデルシフトを逆モデル不一致で制御することにより,AEの転送性に対する包括的保証が得られることが示唆された。
その結果,転送可能性に寄与する部分的要因のみを従来手法が考慮していたような,一般的な転送ベースアタック・フレームワークがもたらされた。
アルゴリズム的に、我々の理論的結果に触発されて、我々はまず、モデルがAEsに対して多様な敵の脆弱性を示すサロゲートモデルを構築して、インスタンス化された敵のモデルの相違を狭める。
次に、様々な代理モデルよりもAEsの平坦性を効果的に促進し、転送性を向上させるために、textit{model-diversity- compatible Reverse Adversarial Perturbation} (DRAP) を生成する。
NIPS2017とCIFAR-10データセットの様々なターゲットモデルに対する大規模な実験により、提案した攻撃の有効性が示された。
関連論文リスト
- Improving the Transferability of Adversarial Examples by Inverse Knowledge Distillation [15.362394334872077]
逆知識蒸留(Inverse Knowledge Distillation, IKD)は, 対向移動性を効果的に向上するように設計されている。
IKDは勾配に基づく攻撃手法を統合し、攻撃勾配の多様性を促進し、特定のモデルアーキテクチャへの過度な適合を緩和する。
ImageNetデータセットの実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2025-02-24T09:35:30Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Enhancing Adversarial Transferability with Adversarial Weight Tuning [36.09966860069978]
敵対的な例(AE)は、人間の観察者に対して良心を抱きながらモデルを誤解させた。
AWTは、勾配に基づく攻撃法とモデルに基づく攻撃法を組み合わせて、AEの転送可能性を高めるデータフリーチューニング手法である。
論文 参考訳(メタデータ) (2024-08-18T13:31:26Z) - Enhancing Adversarial Attacks: The Similar Target Method [6.293148047652131]
敵対的な例は、ディープニューラルネットワークのアプリケーションに脅威をもたらす。
ディープニューラルネットワークは敵の例に対して脆弱であり、モデルのアプリケーションに脅威を与え、セキュリティ上の懸念を提起する。
我々はSimisal Target(ST)という類似の攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T14:16:36Z) - MF-CLIP: Leveraging CLIP as Surrogate Models for No-box Adversarial Attacks [65.86360607693457]
敵に事前の知識がないノンボックス攻撃は、実際的な関連性にもかかわらず、比較的過小評価されている。
本研究は,大規模ビジョン・ランゲージ・モデル(VLM)をノンボックス・アタックの実行のための代理モデルとして活用するための体系的な研究である。
理論的および実証的な分析により,バニラCLIPを直接サロゲートモデルとして適用するための識別能力の不足に起因するno-boxアタックの実行に重要な制限があることが判明した。
MF-CLIP(MF-CLIP: MF-CLIP)はCLIPのサロゲートモデルとしての有効性を高める新しいフレームワークである。
論文 参考訳(メタデータ) (2023-07-13T08:10:48Z) - Improving White-box Robustness of Pre-processing Defenses via Joint Adversarial Training [106.34722726264522]
対向騒音の干渉を軽減するため,様々な対向防御技術が提案されている。
プレプロセス法は、ロバストネス劣化効果に悩まされることがある。
この負の効果の潜在的な原因は、敵の訓練例が静的であり、前処理モデルとは独立していることである。
本稿では,JATP(Joint Adversarial Training Based Pre-processing)防衛法を提案する。
論文 参考訳(メタデータ) (2021-06-10T01:45:32Z) - Query-Free Adversarial Transfer via Undertrained Surrogates [14.112444998191698]
本研究では,ブラックボックス環境における敵攻撃の有効性を改善するための新しい手法を提案する。
本稿では, この手法がアーキテクチャ全体にわたって良好に伝達し, 最先端の手法よりも広いマージンで性能を向上することを示す。
論文 参考訳(メタデータ) (2020-07-01T23:12:22Z) - Adversarial Example Games [51.92698856933169]
Adrial Example Games (AEG) は、敵の例の製作をモデル化するフレームワークである。
AEGは、ある仮説クラスからジェネレータとアバーサを反対に訓練することで、敵の例を設計する新しい方法を提供する。
MNIST と CIFAR-10 データセットに対する AEG の有効性を示す。
論文 参考訳(メタデータ) (2020-07-01T19:47:23Z) - Boosting Black-Box Attack with Partially Transferred Conditional
Adversarial Distribution [83.02632136860976]
深層ニューラルネットワーク(DNN)に対するブラックボックス攻撃の研究
我々は, 代理バイアスに対して頑健な, 対向移動可能性の新たなメカニズムを開発する。
ベンチマークデータセットの実験と実世界のAPIに対する攻撃は、提案手法の優れた攻撃性能を示す。
論文 参考訳(メタデータ) (2020-06-15T16:45:27Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。