論文の概要: Backdoor Sentinel: Detecting and Detoxifying Backdoors in Diffusion Models via Temporal Noise Consistency
- arxiv url: http://arxiv.org/abs/2602.01765v1
- Date: Mon, 02 Feb 2026 07:48:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.990891
- Title: Backdoor Sentinel: Detecting and Detoxifying Backdoors in Diffusion Models via Temporal Noise Consistency
- Title(参考訳): バックドア・センチネル:時間的ノイズ一貫性による拡散モデルにおけるバックドアの検出とデトックス化
- Authors: Bingzheng Wang, Xiaoyan Gu, Hongbo Xu, Hongcheng Li, Zimo Yu, Jiang Zhou, Weiping Wang,
- Abstract要約: TNC-Defense(Temporal Noise Consistency Defense)は、バックドア検出と解毒のための統合されたフレームワークである。
提案手法を5つの代表的なバックドア攻撃シナリオで評価し,最先端の防御手法と比較した。
以上の結果から, TNC-Defenseは平均検出精度を11%以上向上し, 追加オーバーヘッドを無視し, 生成品質をわずかに低下させるだけで, 980.5%のトリガサンプルを無効化することがわかった。
- 参考スコア(独自算出の注目度): 16.82399949878216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have been widely deployed in AIGC services; however, their reliance on opaque training data and procedures exposes a broad attack surface for backdoor injection. In practical auditing scenarios, due to the protection of intellectual property and commercial confidentiality, auditors are typically unable to access model parameters, rendering existing white-box or query-intensive detection methods impractical. More importantly, even after the backdoor is detected, existing detoxification approaches are often trapped in a dilemma between detoxification effectiveness and generation quality. In this work, we identify a previously unreported phenomenon called temporal noise unconsistency, where the noise predictions between adjacent diffusion timesteps is disrupted in specific temporal segments when the input is triggered, while remaining stable under clean inputs. Leveraging this finding, we propose Temporal Noise Consistency Defense (TNC-Defense), a unified framework for backdoor detection and detoxification. The framework first uses the adjacent timestep noise consistency to design a gray-box detection module, for identifying and locating anomalous diffusion timesteps. Furthermore, the framework uses the identified anomalous timesteps to construct a trigger-agnostic, timestep-aware detoxification module, which directly corrects the backdoor generation path. This effectively suppresses backdoor behavior while significantly reducing detoxification costs. We evaluate the proposed method under five representative backdoor attack scenarios and compare it with state-of-the-art defenses. The results show that TNC-Defense improves the average detection accuracy by $11\%$ with negligible additional overhead, and invalidates an average of $98.5\%$ of triggered samples with only a mild degradation in generation quality.
- Abstract(参考訳): 拡散モデルはAIGCサービスに広くデプロイされているが、不透明なトレーニングデータやプロシージャに依存しているため、バックドアインジェクションに対する幅広い攻撃面が公開されている。
実際の監査シナリオでは、知的財産権の保護と商業機密性のために、監査人はモデルパラメータにアクセスできず、既存のホワイトボックスやクエリ集約検出メソッドを非現実的にレンダリングする。
さらに、バックドアが検出されても、既存の解毒アプローチは、解毒効果と生成品質のジレンマに閉じ込められることが多い。
本研究では,入力がトリガされたとき,隣接拡散時間間隔間のノイズ予測が特定の時間区間で破壊され,クリーンな入力の下で安定な状態が保たれる,時間的ノイズ不整合という現象を特定する。
この知見を生かして,バックドア検出と解毒のための統合フレームワークであるTNC-Defenseを提案する。
このフレームワークはまず、隣接する時間ステップノイズの整合性を利用して、異常な拡散時間ステップを特定し、位置を特定するグレーボックス検出モジュールを設計する。
さらに、このフレームワークは、特定された異常なタイムステップを使用して、バックドア生成パスを直接修正するトリガーに依存しない、タイムステップ対応のデトックスモジュールを構築する。
これにより、脱毒コストを大幅に低減しつつ、バックドアの挙動を効果的に抑制できる。
提案手法を5つの代表的なバックドア攻撃シナリオで評価し,最先端の防御手法と比較した。
以上の結果から, TNC-Defense による検出精度は, 追加オーバーヘッドを無視して平均 11 % 向上し, 生成品質をわずかに低下させるだけで, 平均 98.5 % のトリガサンプルを無効化できることがわかった。
関連論文リスト
- Backdoor Samples Detection Based on Perturbation Discrepancy Consistency in Pre-trained Language Models [21.927099943522734]
本稿では,PerturbatiotextbfN discrtextbfEpancy consistextbfTency textbfEvaluation (NETE)に基づくバックドアサンプル検出手法を提案する。
検出プロセスでは、サンプルのログ確率を計算するために、オフザシェルフ事前訓練モデルのみを必要とする。
本手法は, 室内試料の摂動差の変化がクリーン試料のそれよりも小さいという興味深い現象に基づいている。
論文 参考訳(メタデータ) (2025-08-30T06:35:32Z) - BURN: Backdoor Unlearning via Adversarial Boundary Analysis [73.14147934175604]
Backdoor Unlearningは、モデル本来の機能を保持しながら、バックドア関連の情報を削除することを目的としている。
本稿では, 偽相関疎結合, プログレッシブデータリファインメント, モデル浄化を統合した新しい防御フレームワーク, BURNによるバックドア・アンラーニングを提案する。
論文 参考訳(メタデータ) (2025-07-14T17:13:06Z) - Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
我々はこれらの成分を明示的に緩和することでTwT(Trigger without Trace)を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Runtime Backdoor Detection for Federated Learning via Representational Dissimilarity Analysis [24.56608572464567]
フェデレーションラーニング(FL)は、分散クライアントからモデル更新を集約することで、共有モデルをトレーニングする。
モデル学習をローカルデータから切り離すことで、FLはバックドア攻撃に対して非常に脆弱になる。
本稿では,悪意のあるクライアントを,正確で安定的で効率的な方法で検出する手法を提案する。
論文 参考訳(メタデータ) (2025-03-06T14:23:18Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - DisDet: Exploring Detectability of Backdoor Attack on Diffusion Models [23.502100653704446]
いくつかの先駆的な研究は、バックドア攻撃に対する拡散モデルの脆弱性を示している。
本稿では,バックドア拡散モデルに対する有毒音入力の検出可能性について検討する。
有害な入力ノイズを効果的に識別できる低コストトリガー検出機構を提案する。
次に、攻撃側から同じ問題を研究するためにさらに一歩踏み出し、無意味なトリガーを学習できるバックドア攻撃戦略を提案します。
論文 参考訳(メタデータ) (2024-02-05T05:46:31Z) - Detecting Backdoors During the Inference Stage Based on Corruption
Robustness Consistency [33.42013309686333]
本稿では,被害者モデルのハードラベル出力のみを必要とする試験時間トリガーサンプル検出法を提案する。
私たちの旅は、バックドアに感染したモデルが、クリーンな画像に対して異なる画像の破損に対して同様のパフォーマンスを持つのに、トリガーサンプルに対して不一致に実行するという興味深い観察から始まります。
大規模な実験では、最先端のディフェンスと比較すると、TeCoは異なるバックドア攻撃、データセット、モデルアーキテクチャにおいて、それらよりも優れています。
論文 参考訳(メタデータ) (2023-03-27T07:10:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。