論文の概要: Losing Control: Data Poisoning Attack on Guided Diffusion via ControlNet
- arxiv url: http://arxiv.org/abs/2507.04726v1
- Date: Mon, 07 Jul 2025 07:36:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.315187
- Title: Losing Control: Data Poisoning Attack on Guided Diffusion via ControlNet
- Title(参考訳): Losing Control: ControlNetによるガイド付き拡散攻撃
- Authors: Raz Lapid, Almog Dubin,
- Abstract要約: テキストトリガを使わずに特定のコンテンツを含む画像を生成するために,コントロールネットを操作する新しいデータ中毒手法を提案する。
大規模で高品質なデータセットでは、我々のバックドアは、生の入力では認識できないまま、高い攻撃成功率を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models have achieved remarkable success in translating textual prompts into high-fidelity images. ControlNets further extend these models by allowing precise, image-based conditioning (e.g., edge maps, depth, pose), enabling fine-grained control over structure and style. However, their dependence on large, publicly scraped datasets -- and the increasing use of community-shared data for fine-tuning -- exposes them to stealthy data poisoning attacks. In this work, we introduce a novel data poisoning method that manipulates ControlNets to generate images containing specific content without any text triggers. By injecting poisoned samples -- each pairing a subtly triggered input with an NSFW target -- the model retains clean-prompt fidelity yet reliably produces NSFW outputs when the trigger is present. On large-scale, high-quality datasets, our backdoor achieves high attack success rate while remaining imperceptible in raw inputs. These results reveal a critical vulnerability in open-source ControlNets pipelines and underscore the need for robust data sanitization and defense mechanisms.
- Abstract(参考訳): テキスト間拡散モデルは高忠実度画像へのテキストプロンプトの変換において顕著な成功を収めた。
ControlNetsはさらに、正確な画像ベースの条件付け(例えば、エッジマップ、深さ、ポーズ)を可能にし、構造とスタイルのきめ細かい制御を可能にすることで、これらのモデルを拡張している。
しかし、大規模な、パブリックにスクラップされたデータセットへの依存、そして、コミュニティが共有したデータの使用の増加は、それらをステルスなデータ中毒攻撃に晒す。本研究では、コントロールネットを操作する新しいデータ中毒手法を導入し、テキストトリガーなしで特定のコンテンツを含む画像を生成する。有毒なサンプルを注入することで、それぞれがNSFWターゲットとサブトリガされた入力をペアリングすることで、モデルがクリーンでプロンプトされたフィリティを維持しながら、トリガーが存在する時に確実にNSFW出力を生成する。
大規模で高品質なデータセットでは、我々のバックドアは、生の入力では認識できないまま、高い攻撃成功率を達成する。
これらの結果は、オープンソースのControlNetsパイプラインの重大な脆弱性を明らかにし、ロバストなデータ衛生と防御メカニズムの必要性を浮き彫りにしている。
関連論文リスト
- Towards Safe Synthetic Image Generation On the Web: A Multimodal Robust NSFW Defense and Million Scale Dataset [20.758637391023345]
安全かつNSFWなテキストとイメージを区別するためにマルチモーダルディフェンスが開発された。
我々のモデルは精度とリコールの観点から既存のSOTA NSFW検出手法に対して良好に機能する。
論文 参考訳(メタデータ) (2025-04-16T02:10:42Z) - Clean Image May be Dangerous: Data Poisoning Attacks Against Deep Hashing [71.30876587855867]
クリーンなクエリ画像でさえ危険であり、望ましくない画像や違法な画像などの悪意のあるターゲット検索結果が誘導される。
具体的には,まず,対象の深部ハッシュモデルの挙動をシミュレートするために代理モデルを訓練する。
そこで, 毒性画像を生成するため, 厳密な勾配マッチング戦略を提案する。
論文 参考訳(メタデータ) (2025-03-27T07:54:27Z) - Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models [61.56740897898055]
本稿では,テキストから画像への拡散モデルを操作する新しいデータ中毒手法であるSilent Branding Attackを紹介する。
トレーニングデータに特定の視覚パターンが繰り返し現れると、モデルはその出力で自然にそれを再現することを学ぶ。
我々は、ロゴを元の画像に不当に注入し、自然にブレンドし、検出されないようにする自動データ中毒アルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-03-12T17:21:57Z) - SC-Pro: Training-Free Framework for Defending Unsafe Image Synthesis Attack [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。
NSFW画像を生成する敵攻撃に対して容易に防御できる訓練不要のフレームワークであるSC-Proを提案する。
論文 参考訳(メタデータ) (2025-01-09T16:43:21Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - A GAN-Based Data Poisoning Attack Against Federated Learning Systems and Its Countermeasure [17.975736855580674]
本稿では,VagGANという新たなデータ中毒モデルを提案する。
VagueGANは、GAN(Generative Adversarial Network)の変異を利用して、一見正当であるがノイズの多い有毒なデータを生成することができる。
我々の攻撃方法は一般によりステルス性が高く、複雑性の低いFL性能の劣化に有効である。
論文 参考訳(メタデータ) (2024-05-19T04:23:40Z) - The Stronger the Diffusion Model, the Easier the Backdoor: Data Poisoning to Induce Copyright Breaches Without Adjusting Finetuning Pipeline [30.80691226540351]
我々は、生成AIモデルに対する著作権侵害攻撃を形式化し、SilentBadDiffusionというバックドア攻撃手法を提案した。
本手法は, 著作権情報とテキスト参照の接続を有毒データに戦略的に埋め込む方法である。
本実験は, 汚染データの盗みと有効性を示すものである。
論文 参考訳(メタデータ) (2024-01-07T08:37:29Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - DIAGNOSIS: Detecting Unauthorized Data Usages in Text-to-image Diffusion Models [79.71665540122498]
保護されたデータセットにインジェクトされたコンテンツを配置することで、不正なデータ利用を検出する手法を提案する。
具体的には、ステルス画像ワープ機能を用いて、これらの画像にユニークな内容を追加することにより、保護された画像を修正する。
このモデルが注入されたコンテンツを記憶したかどうかを解析することにより、不正に不正に使用したモデルを検出することができる。
論文 参考訳(メタデータ) (2023-07-06T16:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。