論文の概要: Practical, Generalizable and Robust Backdoor Attacks on Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2508.01605v1
- Date: Sun, 03 Aug 2025 05:42:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 14:02:36.133305
- Title: Practical, Generalizable and Robust Backdoor Attacks on Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルにおける実践的・一般化可能・ロバストなバックドア攻撃
- Authors: Haoran Dai, Jiawen Wang, Ruo Yang, Manali Sharma, Zhonghao Liao, Yuan Hong, Binghui Wang,
- Abstract要約: テキスト間拡散モデル(T2I DM)は,テキストプロンプトから高品質で多様な画像を生成することに成功している。
最近の研究では、バックドア攻撃に対する脆弱性が明らかにされている。
本稿では,3つの重要な特性を実現するバックドア・アタック・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 20.856910241657854
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-image diffusion models (T2I DMs) have achieved remarkable success in generating high-quality and diverse images from text prompts, yet recent studies have revealed their vulnerability to backdoor attacks. Existing attack methods suffer from critical limitations: 1) they rely on unnatural adversarial prompts that lack human readability and require massive poisoned data; 2) their effectiveness is typically restricted to specific models, lacking generalizability; and 3) they can be mitigated by recent backdoor defenses. To overcome these challenges, we propose a novel backdoor attack framework that achieves three key properties: 1) \emph{Practicality}: Our attack requires only a few stealthy backdoor samples to generate arbitrary attacker-chosen target images, as well as ensuring high-quality image generation in benign scenarios. 2) \emph{Generalizability:} The attack is applicable across multiple T2I DMs without requiring model-specific redesign. 3) \emph{Robustness:} The attack remains effective against existing backdoor defenses and adaptive defenses. Our extensive experimental results on multiple T2I DMs demonstrate that with only 10 carefully crafted backdoored samples, our attack method achieves $>$90\% attack success rate with negligible degradation in benign image generation quality. We also conduct human evaluation to validate our attack effectiveness. Furthermore, recent backdoor detection and mitigation methods, as well as adaptive defense tailored to our attack are not sufficiently effective, highlighting the pressing need for more robust defense mechanisms against the proposed attack.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデル(T2I DM)はテキスト・プロンプトから高品質で多様な画像を生成することに成功したが、最近の研究ではバックドア攻撃に対する脆弱性を明らかにしている。
既存の攻撃方法には限界がある。
1)ヒトの可読性に欠け、大量の有毒データを必要とする非自然的敵のプロンプトに依存している。
2) 有効性は,一般に特定のモデルに限定され,一般化性に欠ける。
3)近年の防備で緩和できる。
これらの課題を克服するために、我々は3つの重要な特性を達成する新しいバックドアアタックフレームワークを提案する。
1) \emph{Practicality}:我々の攻撃は、任意の攻撃目標画像を生成するために、少数のステルスなバックドアサンプルと、良質なシナリオにおける高品質な画像生成を保証するためにのみ必要である。
2) \emph{Generalizability:} 攻撃はモデル固有の再設計を必要とせずに、複数のT2I DMに適用できる。
3) \emph{Robustness:} 既存のバックドア・ディフェンスやアダプティブ・ディフェンスに対する攻撃は依然として有効である。
複数のT2I DMの大規模な実験結果から,画像生成品質の劣化を無視して攻撃成功率を90 %以上に抑えることができた。
また、攻撃の有効性を検証するために人的評価も行います。
さらに,近年のバックドア検出・緩和手法や,我々の攻撃に適合した適応防御は,十分な効果が得られず,提案攻撃に対するより堅牢な防御機構の必要性が浮き彫りになっている。
関連論文リスト
- Gungnir: Exploiting Stylistic Features in Images for Backdoor Attacks on Diffusion Models [8.672029086609884]
拡散モデル(DM)はバックドア攻撃に対して脆弱である。
Gungnirは、入力画像内のスタイルトリガを通じて、攻撃者がDMのバックドアをアクティベートできる新しい方法である。
本手法は,クリーン画像と知覚的に区別できないトリガー埋め込み画像を生成する。
論文 参考訳(メタデータ) (2025-02-28T02:08:26Z) - Data Free Backdoor Attacks [83.10379074100453]
DFBAは、モデルアーキテクチャを変更することなく、リトレーニングフリーでデータフリーのバックドア攻撃である。
我々の注入されたバックドアは、様々な最先端の防御策によって、検出不可能で、検出不能であることを確認した。
複数のデータセットに対する評価では,1) 無視可能な分類損失,2) 攻撃成功率,3) 既存の6つの防御を回避している。
論文 参考訳(メタデータ) (2024-12-09T05:30:25Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - An Invisible Backdoor Attack Based On Semantic Feature [0.0]
過去数年間、バックドア攻撃はディープニューラルネットワーク(DNN)モデルに深刻な脅威を与えてきた。
我々は、新しいバックドア攻撃を提案し、不可避な変更を行う。
我々は3つの画像分類データセットに対する攻撃を評価した。
論文 参考訳(メタデータ) (2024-05-19T13:50:40Z) - Elijah: Eliminating Backdoors Injected in Diffusion Models via
Distribution Shift [86.92048184556936]
DMの最初のバックドア検出・除去フレームワークを提案する。
DDPM, NCSN, LDMを含む3種類のDMを用いて, フレームワークのElijahを評価した。
提案手法では, モデルの有用性を著しく損なうことなく, 検出精度が100%に近づき, バックドア効果をゼロに抑えることができる。
論文 参考訳(メタデータ) (2023-11-27T23:58:56Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Evaluating the Robustness of Text-to-image Diffusion Models against
Real-world Attacks [22.651626059348356]
テキスト・ツー・イメージ(T2I)拡散モデル(DM)は,テキスト記述から高品質な画像を生成することを約束している。
1つの根本的な問題は、既存のT2I DMが入力テキストの変動に対して堅牢であるかどうかである。
この研究は、現実世界の攻撃に対するT2I DMの最初の堅牢性評価を提供する。
論文 参考訳(メタデータ) (2023-06-16T00:43:35Z) - Personalization as a Shortcut for Few-Shot Backdoor Attack against
Text-to-Image Diffusion Models [23.695414399663235]
本稿では,個人化によるバックドア攻撃に対するテキスト・ツー・イメージ(T2I)拡散モデルの潜在的な脆弱性について検討する。
本研究は,テキスト・インバージョンとDreamBoothによるパーソナライズ手法の2つのファミリーで普及しているゼロデイバックドア脆弱性に焦点を当てた。
Textual InversionとDreamBoothの即時処理を研究することで、未確認トークンの扱い方によって、バックドア攻撃を考案しました。
論文 参考訳(メタデータ) (2023-05-18T04:28:47Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Natural Backdoor Attack on Text Data [15.35163515187413]
本論文では,NLPモデルに対するテキストバックドア攻撃を提案する。
テキストデータにトリガーを発生させ,修正範囲,人間認識,特殊事例に基づいて,さまざまな種類のトリガーを調査する。
その結果,テキスト分類作業において100%バックドア攻撃の成功率と0.83%の犠牲となる優れた性能を示した。
論文 参考訳(メタデータ) (2020-06-29T16:40:14Z) - BadNL: Backdoor Attacks against NLP Models with Semantic-preserving
Improvements [33.309299864983295]
我々は,新たな攻撃方法を含む一般的なNLPバックドア攻撃フレームワークであるBadNLを提案する。
我々の攻撃は、原モデルの実用性に無視できる効果で、ほぼ完璧な攻撃成功率を達成する。
論文 参考訳(メタデータ) (2020-06-01T16:17:14Z) - On Certifying Robustness against Backdoor Attacks via Randomized
Smoothing [74.79764677396773]
ランダム化平滑化法(ランダム化平滑化)と呼ばれる最近の手法を用いて,バックドア攻撃に対するロバスト性検証の有効性と有効性を検討した。
本研究は, バックドア攻撃に対するロバスト性を証明するために, ランダムな平滑化を用いた理論的実現可能性を示すものである。
既存の無作為な平滑化手法は、バックドア攻撃に対する防御効果に限界がある。
論文 参考訳(メタデータ) (2020-02-26T19:15:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。