論文の概要: Awakening the Hydra: Stabilizing Multi-Concept Backdoor Injection in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2605.19698v1
- Date: Tue, 19 May 2026 11:36:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.300965
- Title: Awakening the Hydra: Stabilizing Multi-Concept Backdoor Injection in Text-to-Image Diffusion Models
- Title(参考訳): ハイドラの覚醒:テキスト-画像拡散モデルにおけるマルチコンセプトバックドアインジェクションの安定化
- Authors: Kai Wang, Jiale Zhang, Chengcheng Zhu, Chuang Ma, Songze Li,
- Abstract要約: Hydraは、累積的かつ分散化された再利用の下で、堅牢で制御されたマルチコンセプトのバックドアインジェクションのためのフレームワークである。
テキストエンコーダ空間で進化的トリガー検索を実行し、ターゲット概念にセマンティックに整合したトリガーを識別する。
さらに、マルチタスク微調整とトリガークリーン正規化を組み合わせることで、密集したマルチコンセプトインジェクション下でのトレーニング安定性を向上させる。
- 参考スコア(独自算出の注目度): 28.346993107855983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models are increasingly developed through open-source reuse and repeated downstream fine-tuning, where reused checkpoints are difficult to verify and thus more susceptible to hidden backdoor behaviors. In such ecosystems, a single pretrained model may be sequentially adapted and redistributed by multiple independent parties, allowing multiple concept-specific trigger-target associations to accumulate in the same model. When these associations coexist, semantic conflicts can be amplified in the shared representation space, leading to cross-concept entanglement and degraded generation quality. Notably, instead of strengthening the attack, such accumulation can destabilize previously injected behaviors and reduce attack reliability. In this work, we systematically investigate backdoor attacks under this interference-prone setting and propose Hydra, a unified framework for robust and controlled multi-concept backdoor injection under cumulative and decentralized reuse. Our core insight is that stable backdoor injection under large-scale multi-concept settings requires explicitly constraining trigger semantics while coordinating cross-task interactions during optimization. Specifically, Hydra performs evolutionary trigger search in the text encoder space to identify triggers that are semantically aligned with their target concepts while remaining stable across other injected concepts. It further combines multi-task fine-tuning with trigger-clean regularization to improve training stability under dense multi-concept injection. Extensive experiments across multiple diffusion backbones under rigorous multi-concept settings show that Hydra maintains effective backdoor activation while preserving clean generation fidelity and image quality. For instance, across 8 attackers and 500 concept pairs, Hydra maintains ~95% ASR and strong clean generation.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデルは、再利用されたチェックポイントの検証が困難であり、隠れたバックドアの振る舞いにより影響を受けやすい、オープンソースの再利用と下流の微調整によって、ますます発展している。
このようなエコシステムでは、1つの事前訓練されたモデルが、複数の独立したパーティによって順次適応され、再配布され、複数の概念固有のトリガーターゲットアソシエーションが同じモデルに蓄積される。
これらの関連が共存すると、意味的衝突は共有表現空間で増幅され、クロスコンセプトの絡み合いと劣化した生成品質につながる。
特に、攻撃を強化する代わりに、そのような蓄積は以前に注入された振る舞いを不安定にし、攻撃の信頼性を低下させる。
本研究では,この干渉発生条件下でのバックドア攻撃を系統的に検討し,累積的かつ分散化された再利用の下で頑健かつ制御されたマルチコンセプト・バックドア・インジェクションのための統合フレームワークであるHydraを提案する。
我々の中核的な洞察は、大規模なマルチコンセプト設定下での安定したバックドアインジェクションは、最適化中にタスク間の相互作用を調整しながら、トリガーセマンティクスを明示的に制限する必要があるということである。
具体的には、Hydraはテキストエンコーダ空間で進化的トリガーサーチを実行し、ターゲット概念にセマンティックに整合したトリガーを識別し、他のインジェクションされた概念を安定して保持する。
さらに、マルチタスク微調整とトリガークリーン正規化を組み合わせることで、密集したマルチコンセプトインジェクション下でのトレーニング安定性を向上させる。
厳密なマルチコンセプト設定下での複数の拡散バックボーンに対する広範囲な実験により,Hydraはクリーンな生成忠実度と画質を維持しながら効果的なバックドアアクティベーションを維持していることが示された。
例えば、8つの攻撃者と500のコンセプトペアに対して、Hydraは95%のASRと強力なクリーン生成を維持している。
関連論文リスト
- Scaling Exposes the Trigger: Input-Level Backdoor Detection in Text-to-Image Diffusion Models via Cross-Attention Scaling [12.573852448122716]
テキスト・ツー・イメージ(T2I)拡散モデルは画像合成において顕著な成功を収めているが、大規模データやオープンエコシステムへの依存は深刻なバックドアセキュリティリスクをもたらす。
既存の防御、特に入力レベルメソッドは、より実用的だが、しばしばステルスでセマンティクスを保存するトリガー設計の下で信頼性が低い観測可能な異常に頼っている。
入力レベルのバックドア検出フレームワークであるSETを提案する。これはマルチスケールの摂動下で応答オフセット機能を構築し、小さなクリーンなサンプル集合からコンパクトな良性応答空間を学習する。
論文 参考訳(メタデータ) (2026-04-14T08:31:37Z) - BadRSSD: Backdoor Attacks on Regularized Self-Supervised Diffusion Models [10.286339414754499]
Bad RSSDは自己教師付き拡散モデルの表現層をターゲットにした最初のバックドア攻撃である。
標的画像に対するPCA空間のトリガーで有毒なサンプルのセマンティック表現をハイジャックする。
悪い RSSD は FID と MSE の両方で既存の攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2026-03-01T09:56:26Z) - Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models [74.1970982768771]
確立されたデータポゾンパイプラインは,MDLMにバックドアを埋め込むことに成功した。
拡散自己浄化(Diffusion Self-Purification)と呼ばれるMDLMのバックドア防御フレームワークについて紹介する。
論文 参考訳(メタデータ) (2026-02-24T15:47:52Z) - Semantic-level Backdoor Attack against Text-to-Image Diffusion Models [3.8542429081202947]
本稿では,セマンティックレベルのバックドア攻撃(Semantic-level Backdoor Attack, SemBD)を提案する。
SemBDは、最先端の入力レベルの防御に対して強い堅牢性を保ちながら、100%の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-03T13:23:01Z) - SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - Proactive Disentangled Modeling of Trigger-Object Pairings for Backdoor Defense [0.0]
ディープニューラルネットワーク(DNN)とジェネレーティブAI(GenAI)は、バックドア攻撃に対してますます脆弱になっている。
本稿では、構造的ゆがみを利用したプロアクティブなフレームワークであるDBOMを紹介し、見えないバックドアの脅威を識別し、中和する。
そこで本研究では,DBOMが下流トレーニングに先立って有毒な画像を確実に検出し,トレーニングパイプラインの安全性を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-08-03T21:58:15Z) - Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
我々はこれらの成分を明示的に緩和することでTwT(Trigger without Trace)を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - BadActs: A Universal Backdoor Defense in the Activation Space [14.042905759502267]
アクティベーション空間におけるバックドアサンプルを浄化するユニバーサルバックドアディフェンスを導入する。
アクティベーション空間で操作することで、単語のような表面的な情報から構文のような高レベルのセマンティックな概念までをキャプチャする。
本稿では,異常なアクティベーションの統計情報に基づく検出モジュールを提案する。
論文 参考訳(メタデータ) (2024-05-18T08:32:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。