論文の概要: DiffBreak: Breaking Diffusion-Based Purification with Adaptive Attacks
- arxiv url: http://arxiv.org/abs/2411.16598v2
- Date: Tue, 04 Feb 2025 20:04:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:25:48.682277
- Title: DiffBreak: Breaking Diffusion-Based Purification with Adaptive Attacks
- Title(参考訳): DiffBreak: 適応的な攻撃で拡散に基づく浄化を破る
- Authors: Andre Kassis, Urs Hengartner, Yaoliang Yu,
- Abstract要約: 拡散型浄化(DBP)は、敵例(AEs)に対する防御基盤として登場した。
適応的勾配に基づく攻撃がこの基礎的主張を無効にすることを示す。
本稿では,近年のディープフェイク透かしに対する最適化手法の新たな適用法を提案する。
- 参考スコア(独自算出の注目度): 20.15955997832192
- License:
- Abstract: Diffusion-based purification (DBP) has emerged as a cornerstone defense against adversarial examples (AEs), widely regarded as robust due to its use of diffusion models (DMs) that project AEs onto the natural data distribution. However, contrary to prior assumptions, we theoretically prove that adaptive gradient-based attacks nullify this foundational claim, effectively targeting the DM rather than the classifier and causing purified outputs to align with adversarial distributions. This surprising discovery prompts a reassessment of DBP's robustness, revealing it stems from critical flaws in backpropagation techniques used so far for attacking DBP. To address these gaps, we introduce DiffBreak, a novel and reliable gradient library for DBP, which exposes how adaptive attacks drastically degrade its robustness. In stricter majority-vote settings, where classifier decisions aggregate predictions over multiple purified inputs, DBP retains partial robustness to traditional norm-bounded AEs due to its stochasticity disrupting adversarial alignment. However, we propose a novel adaptation of a recent optimization method against deepfake watermarking, crafting systemic adversarial perturbations that defeat DBP even under these conditions, ultimately challenging its viability as a defense without improvements.
- Abstract(参考訳): 拡散型浄化法 (DBP) は, 自然データ分布にAEを投影する拡散モデル (DM) を用いることにより, 敵例 (AEs) に対する基礎的な防御法として出現している。
しかし、従来の仮定とは対照的に、適応的勾配に基づく攻撃がこの基本的主張を無効にし、分類器よりもDMを効果的に標的とし、純出力を敵の分布と整合させることを理論的に証明する。
この驚くべき発見は、DBPの堅牢性を再評価するきっかけとなり、DBPを攻撃するためにこれまで使われてきたバックプロパゲーション技術における重大な欠陥が原因であることが判明した。
DiffBreakはDBPのための新しく信頼性の高い勾配ライブラリで、アダプティブアタックがロバスト性を大幅に低下させる様子を公開しています。
より厳格な多数決投票設定では、分類器の判断が複数の純粋入力に対して集約されるため、DBPは対向的アライメントを阻害する確率性のため、従来の標準有界AEに対して部分的ロバスト性を維持する。
しかし,これらの条件下においてもDBPを倒すようなシステム的対向的摂動を創り出し,改良を伴わない防御策としてその実現性に挑戦する手法として,近年のディープフェイク透かしに対する新しい最適化手法を提案する。
関連論文リスト
- ADBM: Adversarial diffusion bridge model for reliable adversarial purification [21.2538921336578]
近年,拡散型浄化法(DiffPure)は,敵の事例に対する効果的な防御法として認識されている。
DiffPureは, 元の事前学習拡散モデルを用いて, 逆流浄化を最適に行う。
本稿では,ADBMと呼ばれる新しいAdrialversa Diffusion Bridge Modelを提案する。
論文 参考訳(メタデータ) (2024-08-01T06:26:05Z) - Towards Understanding the Robustness of Diffusion-Based Purification: A Stochastic Perspective [65.10019978876863]
拡散性浄化(DBP)は、敵の攻撃に対する効果的な防御機構として出現している。
本稿では、DBPプロセスの本質が、その堅牢性の主要な要因であると主張している。
論文 参考訳(メタデータ) (2024-04-22T16:10:38Z) - DiffAttack: Evasion Attacks Against Diffusion-Based Adversarial
Purification [63.65630243675792]
拡散に基づく浄化防御は拡散モデルを利用して、敵の例の人工摂動を除去する。
近年の研究では、先進的な攻撃でさえ、そのような防御を効果的に破壊できないことが示されている。
拡散型浄化防衛を効果的かつ効率的に行うための統合フレームワークDiffAttackを提案する。
論文 参考訳(メタデータ) (2023-10-27T15:17:50Z) - Confidence-driven Sampling for Backdoor Attacks [49.72680157684523]
バックドア攻撃は、悪質なトリガをDNNモデルに過剰に挿入することを目的としており、テストシナリオ中に不正な制御を許可している。
既存の方法では防衛戦略に対する堅牢性が欠如しており、主に無作為な試薬を無作為に選別しながら、引き金の盗難を強化することに重点を置いている。
信頼性スコアの低いサンプルを選別し、これらの攻撃を識別・対処する上で、守備側の課題を著しく増大させる。
論文 参考訳(メタデータ) (2023-10-08T18:57:36Z) - LEAT: Towards Robust Deepfake Disruption in Real-World Scenarios via
Latent Ensemble Attack [11.764601181046496]
生成モデルによって作成された悪意のある視覚コンテンツであるディープフェイクは、社会にますます有害な脅威をもたらす。
近年のディープフェイクの損傷を積極的に軽減するために, 逆方向の摂動を用いてディープフェイクモデルの出力を妨害する研究が進められている。
そこで本研究では,Latent Ensemble ATtack (LEAT) と呼ばれる簡易かつ効果的なディスラプション手法を提案する。
論文 参考訳(メタデータ) (2023-07-04T07:00:37Z) - Improved Certified Defenses against Data Poisoning with (Deterministic)
Finite Aggregation [122.83280749890078]
本報告では, 一般中毒に対する予防的対策として, フィニット・アグリゲーション(Finite Aggregation)を提案する。
トレーニングセットを直接非結合部分集合に分割するDPAとは対照的に、我々の方法はまず、トレーニングセットをより小さな非結合部分集合に分割する。
我々は、決定論的および集約的認証された防御設計をブリッジして、我々の方法の代替的な見解を提供する。
論文 参考訳(メタデータ) (2022-02-05T20:08:58Z) - Scale-Invariant Adversarial Attack for Evaluating and Enhancing
Adversarial Defenses [22.531976474053057]
プロジェクテッド・グラディエント・Descent (PGD) 攻撃は最も成功した敵攻撃の1つであることが示されている。
我々は, 対向層の特徴とソフトマックス層の重みの角度を利用して, 対向層の生成を誘導するスケール不変逆襲 (SI-PGD) を提案する。
論文 参考訳(メタデータ) (2022-01-29T08:40:53Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。