論文の概要: Combinational Backdoor Attack against Customized Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2411.12389v2
- Date: Wed, 27 Nov 2024 07:41:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:22:24.355314
- Title: Combinational Backdoor Attack against Customized Text-to-Image Models
- Title(参考訳): カスタマイズされたテキスト・画像モデルに対する複合的バックドア攻撃
- Authors: Wenbo Jiang, Jiaming He, Hongwei Li, Guowen Xu, Rui Zhang, Hanxiao Chen, Meng Hao, Haomiao Yang,
- Abstract要約: カスタマイズT2Iモデルに対するコンビネーションバックドア攻撃(CBACT2I)
この研究は、カスタマイズされたT2Iモデルのバックドア脆弱性を明らかにし、バックドアの脅威を軽減するための対策を奨励する。
- 参考スコア(独自算出の注目度): 25.398098422270934
- License:
- Abstract: Recently, Text-to-Image (T2I) synthesis technology has made tremendous strides. Numerous representative T2I models have emerged and achieved promising application outcomes, such as DALL-E, Stable Diffusion, Imagen, etc. In practice, it has become increasingly popular for model developers to selectively adopt various pre-trained text encoders and conditional diffusion models from third-party platforms, integrating them to build customized (personalized) T2I models. However, such an adoption approach is vulnerable to backdoor attacks. In this work, we propose a Combinational Backdoor Attack against Customized T2I models (CBACT2I) targeting this application scenario. Different from previous backdoor attacks against T2I models, CBACT2I embeds the backdoor into the text encoder and the conditional diffusion model separately. The customized T2I model exhibits backdoor behaviors only when the backdoor text encoder is used in combination with the backdoor conditional diffusion model. These properties make CBACT2I more stealthy and flexible than prior backdoor attacks against T2I models. Extensive experiments demonstrate the effectiveness of CBACT2I with different backdoor triggers and different backdoor targets on the open-sourced Stable Diffusion model. This work reveals the backdoor vulnerabilities of customized T2I models and urges countermeasures to mitigate backdoor threats in this scenario.
- Abstract(参考訳): 近年,テキスト・トゥ・イメージ(T2I)合成技術は飛躍的な進歩を遂げている。
多くの代表的T2Iモデルが登場し、DALL-E、Stable Diffusion、Imagenなど、有望なアプリケーション成果を達成した。
実際に、モデル開発者は、様々な事前訓練されたテキストエンコーダや、サードパーティプラットフォームからの条件付き拡散モデルを選択的に採用し、カスタマイズされた(個人化された)T2Iモデルを構築するために統合することが一般的になっている。
しかし、そのような採用アプローチはバックドア攻撃に弱い。
本研究では,このアプリケーションシナリオを対象としたCBACT2Iモデルに対するコンビネーショナルバックドアアタックを提案する。
T2Iモデルに対する以前のバックドア攻撃とは異なり、CBACT2Iはバックドアをテキストエンコーダと条件拡散モデルに別々に埋め込む。
カスタマイズされたT2Iモデルは、バックドア条件拡散モデルと組み合わせてバックドアテキストエンコーダを使用する場合にのみバックドア動作を示す。
これらの特性によりCBACT2IはT2Iモデルに対する以前のバックドア攻撃よりもステルス性があり、柔軟である。
さまざまなバックドアトリガと異なるバックドアターゲットを持つCBACT2Iが、オープンソースの安定拡散モデル上で有効であることを示す大規模な実験である。
この研究は、カスタマイズされたT2Iモデルのバックドア脆弱性を明らかにし、このシナリオにおけるバックドアの脅威を軽減するための対策を奨励する。
関連論文リスト
- Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models [68.40324627475499]
本稿では,Expose Before You Defendという新しい2段階防衛フレームワークを紹介する。
EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。
2つの視覚データセットと4つの言語データセットにまたがる10のイメージアタックと6つのテキストアタックに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-10-25T09:36:04Z) - Exploiting the Vulnerability of Large Language Models via Defense-Aware Architectural Backdoor [0.24335447922683692]
基盤となるモデルアーキテクチャ内に隠蔽する新しいタイプのバックドアアタックを導入します。
モデルアーキテクチャレイヤのアドオンモジュールは、入力トリガトークンの存在を検出し、レイヤの重みを変更することができる。
我々は,5つの大言語データセットの2つのモデルアーキテクチャ設定を用いて,攻撃方法を評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-09-03T14:54:16Z) - DiffZOO: A Purely Query-Based Black-Box Attack for Red-teaming Text-to-Image Generative Model via Zeroth Order Optimization [20.958826487430194]
適切なコンテンツを生成するためのT2Iモデルの能力を拡張または公開するために、レッドチーム攻撃法が提案されている。
我々は,ゼロ次最適化を勾配近似に応用し,C-PRVとD-PRVの両方を用いて攻撃プロンプトを強化するDiffZOOを提案する。
複数の最先端安全メカニズムの実験により、DiffZOOは以前の作業よりも平均攻撃成功率が8.5%高いことが示されている。
論文 参考訳(メタデータ) (2024-08-18T03:16:59Z) - Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models [3.134071086568745]
拡散モデル(DM)は、今日では最も先進的な生成モデルの一つと見なされている。
近年の研究では、DMはバックドア攻撃に弱いことが示唆されている。
この脆弱性は、モデル所有者に評判を害するなど、重大なリスクをもたらす。
Diff-Cleanseは、DM用に特別に設計された2段階のバックドア防御フレームワークである。
論文 参考訳(メタデータ) (2024-07-31T03:54:41Z) - T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models [69.37990698561299]
TrojFMは、非常に大きな基礎モデルに適した、新しいバックドア攻撃である。
提案手法では,モデルパラメータのごく一部のみを微調整することでバックドアを注入する。
広範に使われている大規模GPTモデルに対して,TrojFMが効果的なバックドアアタックを起動できることを実証する。
論文 参考訳(メタデータ) (2024-05-27T03:10:57Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - From Shortcuts to Triggers: Backdoor Defense with Denoised PoE [51.287157951953226]
言語モデルは、しばしば多様なバックドア攻撃、特にデータ中毒の危険にさらされる。
既存のバックドア防御手法は主に明示的なトリガーによるバックドア攻撃に焦点を当てている。
我々は,様々なバックドア攻撃を防御するために,エンド・ツー・エンドアンサンブルに基づくバックドア防御フレームワークDPoEを提案する。
論文 参考訳(メタデータ) (2023-05-24T08:59:25Z) - Personalization as a Shortcut for Few-Shot Backdoor Attack against
Text-to-Image Diffusion Models [23.695414399663235]
本稿では,個人化によるバックドア攻撃に対するテキスト・ツー・イメージ(T2I)拡散モデルの潜在的な脆弱性について検討する。
本研究は,テキスト・インバージョンとDreamBoothによるパーソナライズ手法の2つのファミリーで普及しているゼロデイバックドア脆弱性に焦点を当てた。
Textual InversionとDreamBoothの即時処理を研究することで、未確認トークンの扱い方によって、バックドア攻撃を考案しました。
論文 参考訳(メタデータ) (2023-05-18T04:28:47Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。