論文の概要: From Trojan Horses to Castle Walls: Unveiling Bilateral Data Poisoning Effects in Diffusion Models
- arxiv url: http://arxiv.org/abs/2311.02373v2
- Date: Sat, 15 Jun 2024 12:31:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 11:31:29.026092
- Title: From Trojan Horses to Castle Walls: Unveiling Bilateral Data Poisoning Effects in Diffusion Models
- Title(参考訳): トロイの木馬から城壁へ:拡散モデルにおけるバイラテラルデータ汚染効果の解明
- Authors: Zhuoshi Pan, Yuguang Yao, Gaowen Liu, Bingquan Shen, H. Vicky Zhao, Ramana Rao Kompella, Sijia Liu,
- Abstract要約: 我々は、BadNetsのようなデータ中毒法がDMによって直接的に生成を劣化させるかどうか検討する。
BadNetsのようなデータ中毒攻撃は、DMが誤画像を生成するのに依然として有効であることを示す。
被毒DMはトリガーの割合が増加しており、これはトリガー増幅と呼ばれる現象である」
- 参考スコア(独自算出の注目度): 19.140908259968302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While state-of-the-art diffusion models (DMs) excel in image generation, concerns regarding their security persist. Earlier research highlighted DMs' vulnerability to data poisoning attacks, but these studies placed stricter requirements than conventional methods like `BadNets' in image classification. This is because the art necessitates modifications to the diffusion training and sampling procedures. Unlike the prior work, we investigate whether BadNets-like data poisoning methods can directly degrade the generation by DMs. In other words, if only the training dataset is contaminated (without manipulating the diffusion process), how will this affect the performance of learned DMs? In this setting, we uncover bilateral data poisoning effects that not only serve an adversarial purpose (compromising the functionality of DMs) but also offer a defensive advantage (which can be leveraged for defense in classification tasks against poisoning attacks). We show that a BadNets-like data poisoning attack remains effective in DMs for producing incorrect images (misaligned with the intended text conditions). Meanwhile, poisoned DMs exhibit an increased ratio of triggers, a phenomenon we refer to as `trigger amplification', among the generated images. This insight can be then used to enhance the detection of poisoned training data. In addition, even under a low poisoning ratio, studying the poisoning effects of DMs is also valuable for designing robust image classifiers against such attacks. Last but not least, we establish a meaningful linkage between data poisoning and the phenomenon of data replications by exploring DMs' inherent data memorization tendencies.
- Abstract(参考訳): 最先端拡散モデル(DM)は画像生成において優れているが、セキュリティに関する懸念は持続する。
以前の研究では、DMによるデータ中毒攻撃に対する脆弱性が強調されていたが、これらの研究は画像分類における'BadNets'のような従来の方法よりも厳格な要件を定めていた。
これは拡散訓練やサンプリング手順の変更を必要とするためである。
従来の研究と異なり、BadNetsのようなデータ中毒手法がDMによって直接的に生成を劣化させるかどうかを調査する。
言い換えれば、トレーニングデータセットが(拡散過程を操作せずに)汚染されている場合、これは学習されたDMの性能にどのように影響するのだろうか?
この環境では、敵対的な目的(DMの機能を補完する)だけでなく、防御的優位性(中毒攻撃に対する分類タスクの防御に活用できる)をももたらした、両側のデータ中毒効果を明らかにする。
我々は、BadNetsのようなデータ中毒攻撃が、(意図したテキスト条件と一致した)誤った画像を生成するためのDMに有効であることを示す。
一方、有毒なDMはトリガーの割合が増加しており、この現象は生成された画像の中で「トリガー増幅」と呼ばれている。
この洞察は、有毒なトレーニングデータの検出を強化するために使用できる。
また、低毒性比下においても、DMの毒性効果を研究することは、このような攻撃に対して堅牢な画像分類器を設計する上でも有用である。
最後に、DM固有のデータ記憶傾向を探索することにより、データ中毒とデータ複製現象の有意義な関連性を確立する。
関連論文リスト
- The Stronger the Diffusion Model, the Easier the Backdoor: Data Poisoning to Induce Copyright Breaches Without Adjusting Finetuning Pipeline [30.80691226540351]
我々は、生成AIモデルに対する著作権侵害攻撃を形式化し、SilentBadDiffusionというバックドア攻撃手法を提案した。
本手法は, 著作権情報とテキスト参照の接続を有毒データに戦略的に埋め込む方法である。
本実験は, 汚染データの盗みと有効性を示すものである。
論文 参考訳(メタデータ) (2024-01-07T08:37:29Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Autoregressive Perturbations for Data Poisoning [54.205200221427994]
ソーシャルメディアからのデータスクレイピングは、不正なデータの使用に関する懸念が高まっている。
データ中毒攻撃は、スクラップ対策として提案されている。
より広範なデータセットにアクセスせずに有毒なデータを生成できる自動回帰(AR)中毒を導入する。
論文 参考訳(メタデータ) (2022-06-08T06:24:51Z) - Adversarial Examples Make Strong Poisons [55.63469396785909]
従来は訓練済みのモデルに対する攻撃を意図していた敵の例は,近年の毒殺に特化して設計された手法よりも,データ中毒に有効であることを示す。
また,本手法は,データセットのセキュアなリリースにおいて,既存の中毒法よりも極めて効果的である。
論文 参考訳(メタデータ) (2021-06-21T01:57:14Z) - Accumulative Poisoning Attacks on Real-time Data [56.96241557830253]
我々は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを示します。
我々の研究は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを検証する。
論文 参考訳(メタデータ) (2021-06-18T08:29:53Z) - Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching [56.280018325419896]
Data Poisoning攻撃は、トレーニングデータを変更して、そのようなデータでトレーニングされたモデルを悪意を持って制御する。
我々は「スクラッチから」と「クリーンラベルから」の両方である特に悪意のある毒物攻撃を分析します。
フルサイズで有毒なImageNetデータセットをスクラッチからトレーニングした現代のディープネットワークにおいて、ターゲットの誤分類を引き起こすのは、これが初めてであることを示す。
論文 参考訳(メタデータ) (2020-09-04T16:17:54Z) - Just How Toxic is Data Poisoning? A Unified Benchmark for Backdoor and
Data Poisoning Attacks [74.88735178536159]
データ中毒は、モデル盗難から敵の攻撃まで、脅威の中で一番の懸念事項だ。
データ中毒やバックドア攻撃は、テスト設定のバリエーションに非常に敏感である。
厳格なテストを適用して、それらを恐れるべき程度を判断します。
論文 参考訳(メタデータ) (2020-06-22T18:34:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。