論文の概要: ScoreAdv: Score-based Targeted Generation of Natural Adversarial Examples via Diffusion Models
- arxiv url: http://arxiv.org/abs/2507.06078v1
- Date: Tue, 08 Jul 2025 15:17:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.256577
- Title: ScoreAdv: Score-based Targeted Generation of Natural Adversarial Examples via Diffusion Models
- Title(参考訳): ScoreAdv:拡散モデルによる自然逆例のスコアベースターゲット生成
- Authors: Chihan Huang, Hao Tang,
- Abstract要約: 本稿では,ScoreAdvという拡散モデルに基づく逆例を生成する新しい手法を提案する。
本手法は, 無限個の自然逆例を生成でき, 分類モデルだけでなく, 検索モデルも攻撃できる。
以上の結果から,ScoreAdvは最先端の攻撃成功率と画像品質を達成できることが示された。
- 参考スコア(独自算出の注目度): 7.250878248686215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the success of deep learning across various domains, it remains vulnerable to adversarial attacks. Although many existing adversarial attack methods achieve high success rates, they typically rely on $\ell_{p}$-norm perturbation constraints, which do not align with human perceptual capabilities. Consequently, researchers have shifted their focus toward generating natural, unrestricted adversarial examples (UAEs). GAN-based approaches suffer from inherent limitations, such as poor image quality due to instability and mode collapse. Meanwhile, diffusion models have been employed for UAE generation, but they still rely on iterative PGD perturbation injection, without fully leveraging their central denoising capabilities. In this paper, we introduce a novel approach for generating UAEs based on diffusion models, named ScoreAdv. This method incorporates an interpretable adversarial guidance mechanism to gradually shift the sampling distribution towards the adversarial distribution, while using an interpretable saliency map to inject the visual information of a reference image into the generated samples. Notably, our method is capable of generating an unlimited number of natural adversarial examples and can attack not only classification models but also retrieval models. We conduct extensive experiments on ImageNet and CelebA datasets, validating the performance of ScoreAdv across ten target models in both black-box and white-box settings. Our results demonstrate that ScoreAdv achieves state-of-the-art attack success rates and image quality. Furthermore, the dynamic balance between denoising and adversarial perturbation enables ScoreAdv to remain robust even under defensive measures.
- Abstract(参考訳): 様々な領域にわたるディープラーニングの成功にもかかわらず、敵の攻撃には弱いままである。
多くの既存の敵攻撃法は高い成功率を達成するが、通常は、人間の知覚能力と一致しない$\ell_{p}$-norm摂動制約に依存している。
その結果、研究者たちは自然に制限のない敵の例(UAEs)を生み出すことに焦点を移した。
GANベースのアプローチは、不安定性やモード崩壊による画質の低下など、固有の制限に悩まされる。
一方、UAE生成には拡散モデルが使われてきたが、それでも中心の偏極能力を十分に活用することなく反復的なPGD摂動注入に依存している。
本稿では,ScoreAdvという拡散モデルに基づくUAEの生成手法を提案する。
この方法は、解釈可能な逆方向誘導機構を組み込み、解釈可能な逆方向マップを用いて、参照画像の視覚情報を生成されたサンプルに注入しながら、サンプリング分布を徐々に逆方向へシフトさせる。
特に,本手法は,無数の自然逆例を生成することができ,分類モデルだけでなく,検索モデルも攻撃することができる。
我々はImageNetとCelebAデータセットの広範な実験を行い、ブラックボックスとホワイトボックスの両方の設定で10のターゲットモデルでScoreAdvのパフォーマンスを検証する。
以上の結果から,ScoreAdvは最先端の攻撃成功率と画像品質を達成できることが示された。
さらに、デノベーションと対向的摂動の動的バランスにより、ScoreAdvは防御措置の下でも頑健に維持できる。
関連論文リスト
- VENOM: Text-driven Unrestricted Adversarial Example Generation with Diffusion Models [26.513728933354958]
VENOMは拡散モデルによる高品質な非制限逆例生成のための最初のフレームワークである。
本研究では,適応的逆方向誘導戦略を運動量付きで導入し,生成した逆方向の例が自然画像の逆方向の分布$p(x)$と一致することを保証する。
論文 参考訳(メタデータ) (2025-01-14T08:12:20Z) - Adversarial Transferability in Deep Denoising Models: Theoretical Insights and Robustness Enhancement via Out-of-Distribution Typical Set Sampling [6.189440665620872]
深層学習に基づく画像認識モデルは優れた性能を示すが、ロバストネス分析の欠如は依然として重要な懸念点である。
主な問題は、これらのモデルが敵攻撃の影響を受けやすいことである。
本稿では,新たな対人防御手法であるOut-of-Distribution typical Set Smpling Training戦略を提案する。
論文 参考訳(メタデータ) (2024-12-08T13:47:57Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Efficient Generation of Targeted and Transferable Adversarial Examples for Vision-Language Models Via Diffusion Models [17.958154849014576]
大規模視覚言語モデル(VLM)のロバスト性を評価するために、敵対的攻撃を用いることができる。
従来のトランスファーベースの敵攻撃は、高いイテレーション数と複雑なメソッド構造により、高いコストを発生させる。
本稿では, 拡散モデルを用いて, 自然, 制約のない, 対象とする対向的な例を生成するAdvDiffVLMを提案する。
論文 参考訳(メタデータ) (2024-04-16T07:19:52Z) - Adv-Diffusion: Imperceptible Adversarial Face Identity Attack via Latent
Diffusion Model [61.53213964333474]
本稿では,生の画素空間ではなく,潜在空間における非知覚的対角的アイデンティティ摂動を生成できる統一的なフレームワークAdv-Diffusionを提案する。
具体的には,周囲のセマンティックな摂動を生成するために,個人性に敏感な条件付き拡散生成モデルを提案する。
設計された適応強度に基づく対向摂動アルゴリズムは、攻撃の伝達性とステルス性の両方を確保することができる。
論文 参考訳(メタデータ) (2023-12-18T15:25:23Z) - LEAT: Towards Robust Deepfake Disruption in Real-World Scenarios via
Latent Ensemble Attack [11.764601181046496]
生成モデルによって作成された悪意のある視覚コンテンツであるディープフェイクは、社会にますます有害な脅威をもたらす。
近年のディープフェイクの損傷を積極的に軽減するために, 逆方向の摂動を用いてディープフェイクモデルの出力を妨害する研究が進められている。
そこで本研究では,Latent Ensemble ATtack (LEAT) と呼ばれる簡易かつ効果的なディスラプション手法を提案する。
論文 参考訳(メタデータ) (2023-07-04T07:00:37Z) - Diffusion-Based Adversarial Sample Generation for Improved Stealthiness
and Controllability [62.105715985563656]
そこで本研究では,現実的な対向サンプルを生成するための拡散型射影勾配 Descent (Diff-PGD) という新しいフレームワークを提案する。
我々のフレームワークは、デジタルアタック、物理世界アタック、スタイルベースのアタックなど、特定のタスクに簡単にカスタマイズできる。
論文 参考訳(メタデータ) (2023-05-25T21:51:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。