論文の概要: From Trojan Horses to Castle Walls: Unveiling Bilateral Backdoor Effects
in Diffusion Models
- arxiv url: http://arxiv.org/abs/2311.02373v1
- Date: Sat, 4 Nov 2023 11:00:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 17:55:05.843027
- Title: From Trojan Horses to Castle Walls: Unveiling Bilateral Backdoor Effects
in Diffusion Models
- Title(参考訳): トロイの木馬から城壁へ:拡散モデルにおける両側のバックドア効果
- Authors: Zhuoshi Pan, Yuguang Yao, Gaowen Liu, Bingquan Shen, H. Vicky Zhao,
Ramana Rao Kompella, Sijia Liu
- Abstract要約: DMにおけるバックドア攻撃の発生はBadNetsと同じくらい単純か検討する。
BadNetsのようなバックドア攻撃は、DMが誤った画像を生成するのに有効である。
バックドアDMはバックドアトリガーの割合が増加する。
- 参考スコア(独自算出の注目度): 20.10074289847428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While state-of-the-art diffusion models (DMs) excel in image generation,
concerns regarding their security persist. Earlier research highlighted DMs'
vulnerability to backdoor attacks, but these studies placed stricter
requirements than conventional methods like 'BadNets' in image classification.
This is because the former necessitates modifications to the diffusion sampling
and training procedures. Unlike the prior work, we investigate whether
generating backdoor attacks in DMs can be as simple as BadNets, i.e., by only
contaminating the training dataset without tampering the original diffusion
process. In this more realistic backdoor setting, we uncover bilateral backdoor
effects that not only serve an adversarial purpose (compromising the
functionality of DMs) but also offer a defensive advantage (which can be
leveraged for backdoor defense). Specifically, we find that a BadNets-like
backdoor attack remains effective in DMs for producing incorrect images
(misaligned with the intended text conditions), and thereby yielding incorrect
predictions when DMs are used as classifiers. Meanwhile, backdoored DMs exhibit
an increased ratio of backdoor triggers, a phenomenon we refer to as `trigger
amplification', among the generated images. We show that this latter insight
can be used to enhance the detection of backdoor-poisoned training data. Even
under a low backdoor poisoning ratio, studying the backdoor effects of DMs is
also valuable for designing anti-backdoor image classifiers. Last but not
least, we establish a meaningful linkage between backdoor attacks and the
phenomenon of data replications by exploring DMs' inherent data memorization
tendencies. The codes of our work are available at
https://github.com/OPTML-Group/BiBadDiff.
- Abstract(参考訳): 最先端拡散モデル(DM)は画像生成において優れているが、セキュリティに関する懸念は持続する。
初期の研究ではdmsのバックドア攻撃に対する脆弱性が強調されたが、これらの研究は画像分類における'badnets'のような従来の方法よりも厳格な要件を課した。
これは前者が拡散サンプリングと訓練手順に修正を加える必要があるためである。
従来と異なり,従来の拡散過程を阻害することなくトレーニングデータセットを汚染するだけで,DMのバックドア攻撃がBadNetsと同じくらい簡単にできるかどうかを検討する。
この現実的なバックドア設定では、敵の目的(DMの機能を補完する)だけでなく、防御的優位性(バックドアの防御に活用できる)をもたらす両側のバックドア効果を明らかにする。
具体的には、BadNetsのようなバックドア攻撃は、(意図したテキスト条件と一致しない)不正確な画像を生成するためのDMに対して有効であり、DMを分類器として使用すると誤予測が生じる。
一方,バックドアDMでは,生成画像中のバックドアトリガの割合が増加しており,この現象は「トリガー増幅」と呼ばれている。
後者の知見は,バックドア・ポゾンによるトレーニングデータの検出の促進に有効であることを示す。
低バックドア中毒率下においても、DMのバックドア効果を研究することは、抗バックドア画像分類器の設計にも有用である。
最後に,dms固有のデータ記憶傾向を探索することにより,バックドア攻撃とデータ複製現象との間に有意義な関連性を確立する。
私たちの作業のコードはhttps://github.com/OPTML-Group/BiBadDiff.orgで公開されています。
関連論文リスト
- The Stronger the Diffusion Model, the Easier the Backdoor: Data Poisoning to Induce Copyright Breaches Without Adjusting Finetuning Pipeline [30.80691226540351]
我々は、生成AIモデルに対する著作権侵害攻撃を形式化し、SilentBadDiffusionというバックドア攻撃手法を提案した。
本手法は, 著作権情報とテキスト参照の接続を有毒データに戦略的に埋め込む方法である。
本実験は, 汚染データの盗みと有効性を示すものである。
論文 参考訳(メタデータ) (2024-01-07T08:37:29Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Autoregressive Perturbations for Data Poisoning [54.205200221427994]
ソーシャルメディアからのデータスクレイピングは、不正なデータの使用に関する懸念が高まっている。
データ中毒攻撃は、スクラップ対策として提案されている。
より広範なデータセットにアクセスせずに有毒なデータを生成できる自動回帰(AR)中毒を導入する。
論文 参考訳(メタデータ) (2022-06-08T06:24:51Z) - Adversarial Examples Make Strong Poisons [55.63469396785909]
従来は訓練済みのモデルに対する攻撃を意図していた敵の例は,近年の毒殺に特化して設計された手法よりも,データ中毒に有効であることを示す。
また,本手法は,データセットのセキュアなリリースにおいて,既存の中毒法よりも極めて効果的である。
論文 参考訳(メタデータ) (2021-06-21T01:57:14Z) - Accumulative Poisoning Attacks on Real-time Data [56.96241557830253]
我々は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを示します。
我々の研究は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを検証する。
論文 参考訳(メタデータ) (2021-06-18T08:29:53Z) - Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching [56.280018325419896]
Data Poisoning攻撃は、トレーニングデータを変更して、そのようなデータでトレーニングされたモデルを悪意を持って制御する。
我々は「スクラッチから」と「クリーンラベルから」の両方である特に悪意のある毒物攻撃を分析します。
フルサイズで有毒なImageNetデータセットをスクラッチからトレーニングした現代のディープネットワークにおいて、ターゲットの誤分類を引き起こすのは、これが初めてであることを示す。
論文 参考訳(メタデータ) (2020-09-04T16:17:54Z) - Just How Toxic is Data Poisoning? A Unified Benchmark for Backdoor and
Data Poisoning Attacks [74.88735178536159]
データ中毒は、モデル盗難から敵の攻撃まで、脅威の中で一番の懸念事項だ。
データ中毒やバックドア攻撃は、テスト設定のバリエーションに非常に敏感である。
厳格なテストを適用して、それらを恐れるべき程度を判断します。
論文 参考訳(メタデータ) (2020-06-22T18:34:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。