論文の概要: BadRSSD: Backdoor Attacks on Regularized Self-Supervised Diffusion Models
- arxiv url: http://arxiv.org/abs/2603.01019v1
- Date: Sun, 01 Mar 2026 09:56:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.465181
- Title: BadRSSD: Backdoor Attacks on Regularized Self-Supervised Diffusion Models
- Title(参考訳): BadRSSD: 正規化自己監督拡散モデルによるバックドア攻撃
- Authors: Jiayao Wang, Yiping Zhang, Mohammad Maruf Hasan, Xiaoying Lei, Jiale Zhang, Junwu Zhu, Qilin Wu, Dongfang Zhao,
- Abstract要約: Bad RSSDは自己教師付き拡散モデルの表現層をターゲットにした最初のバックドア攻撃である。
標的画像に対するPCA空間のトリガーで有毒なサンプルのセマンティック表現をハイジャックする。
悪い RSSD は FID と MSE の両方で既存の攻撃を著しく上回っている。
- 参考スコア(独自算出の注目度): 10.286339414754499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised diffusion models learn high-quality visual representations via latent space denoising. However, their representation layer poses a distinct threat: unlike traditional attacks targeting generative outputs, its unconstrained latent semantic space allows for stealthy backdoors, permitting malicious control upon triggering. In this paper, we propose BadRSSD, the first backdoor attack targeting the representation layer of self-supervised diffusion models. Specifically, it hijacks the semantic representations of poisoned samples with triggers in Principal Component Analysis (PCA) space toward those of a target image, then controls the denoising trajectory during diffusion by applying coordinated constraints across latent, pixel, and feature distribution spaces to steer the model toward generating the specified target. Additionally, we integrate representation dispersion regularization into the constraint framework to maintain feature space uniformity, significantly enhancing attack stealth. This approach preserves normal model functionality (high utility) while achieving precise target generation upon trigger activation (high specificity). Experiments on multiple benchmark datasets demonstrate that BadRSSD substantially outperforms existing attacks in both FID and MSE metrics, reliably establishing backdoors across different architectures and configurations, and effectively resisting state-of-the-art backdoor defenses.
- Abstract(参考訳): 自己教師付き拡散モデルは、潜在空間の認知を通して高品質な視覚表現を学習する。
しかし、それらの表現層は、生成出力をターゲットとする従来の攻撃とは異なり、制約のない潜在意味空間はステルスなバックドアを許容し、トリガー時に悪意のある制御を許可する。
本稿では,自己教師付き拡散モデルの表現層を対象とした最初のバックドア攻撃であるBadRSSDを提案する。
具体的には、ターゲット画像に対して主成分分析(PCA)空間にトリガを付けた有毒試料のセマンティック表現をハイジャックし、遅延、画素、特徴分布空間に協調的な制約を適用して拡散中の認知軌道を制御し、特定のターゲット生成に向けてモデルを操る。
さらに,特徴空間の均一性を維持するために,表現分散正規化を制約フレームワークに統合し,攻撃ステルスを大幅に強化する。
このアプローチは、トリガアクティベーション(高特異性)時に正確なターゲット生成を実現しつつ、通常のモデル機能(高実用性)を保ちます。
複数のベンチマークデータセットの実験によると、BadRSSDは、FIDとMSEの両方のメトリクスにおける既存の攻撃を著しく上回り、異なるアーキテクチャや構成のバックドアを確実に確立し、最先端のバックドア防御に効果的に抵抗する。
関連論文リスト
- Proactive Disentangled Modeling of Trigger-Object Pairings for Backdoor Defense [0.0]
ディープニューラルネットワーク(DNN)とジェネレーティブAI(GenAI)は、バックドア攻撃に対してますます脆弱になっている。
本稿では、構造的ゆがみを利用したプロアクティブなフレームワークであるDBOMを紹介し、見えないバックドアの脅威を識別し、中和する。
そこで本研究では,DBOMが下流トレーニングに先立って有毒な画像を確実に検出し,トレーニングパイプラインの安全性を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-08-03T21:58:15Z) - SRD: Reinforcement-Learned Semantic Perturbation for Backdoor Defense in VLMs [57.880467106470775]
攻撃者は、トレーニングデータに知覚不能な摂動を注入することができ、モデルが悪意のある攻撃的制御されたキャプションを生成する。
本稿では,引き金の事前知識を伴わずにバックドア動作を緩和する強化学習フレームワークであるセマンティック・リワード・ディフェンス(SRD)を提案する。
SRDはDeep Q-Networkを使用して、機密画像領域に個別の摂動を適用するためのポリシーを学習し、悪意ある経路の活性化を妨害することを目的としている。
論文 参考訳(メタデータ) (2025-06-05T08:22:24Z) - Backdoor Defense in Diffusion Models via Spatial Attention Unlearning [0.0]
テキストと画像の拡散モデルは、バックドア攻撃に対してますます脆弱である。
本研究では,拡散モデルにおけるバックドア攻撃を緩和する新しい手法である空間注意アンラーニング(SAU)を提案する。
論文 参考訳(メタデータ) (2025-04-21T04:00:19Z) - CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization [7.282200564983221]
大規模言語モデル(LLM)は、隠れたトリガーを介して出力を操作するバックドア攻撃に対して脆弱である。
本稿では,バックドアモデルがトリガ時に不安定な層単位の隠蔽表現を示すという観測を生かした内部一貫性規則化(CROW)を提案する。
CROWは、微調整やバックドアの中立化など、クリーンな参照モデルや知識のトリガを必要とせず、小さなクリーンなデータセットのみを使用して、レイヤ間の一貫性を強制する。
論文 参考訳(メタデータ) (2024-11-18T07:52:12Z) - TERD: A Unified Framework for Safeguarding Diffusion Models Against Backdoors [36.07978634674072]
拡散モデルは、その完全性を損なうバックドア攻撃に弱い。
本稿では,現在の攻撃に対する統一モデリングを構築するバックドアディフェンスフレームワークであるTERDを提案する。
TERDは、さまざまな解像度のデータセットにまたがる100%のTrue Positive Rate(TPR)とTrue Negative Rate(TNR)を保証します。
論文 参考訳(メタデータ) (2024-09-09T03:02:16Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Adv-Diffusion: Imperceptible Adversarial Face Identity Attack via Latent
Diffusion Model [61.53213964333474]
本稿では,生の画素空間ではなく,潜在空間における非知覚的対角的アイデンティティ摂動を生成できる統一的なフレームワークAdv-Diffusionを提案する。
具体的には,周囲のセマンティックな摂動を生成するために,個人性に敏感な条件付き拡散生成モデルを提案する。
設計された適応強度に基づく対向摂動アルゴリズムは、攻撃の伝達性とステルス性の両方を確保することができる。
論文 参考訳(メタデータ) (2023-12-18T15:25:23Z) - Ada3Diff: Defending against 3D Adversarial Point Clouds via Adaptive
Diffusion [70.60038549155485]
ディープ3Dポイントクラウドモデルは敵攻撃に敏感であり、自律運転のような安全クリティカルなアプリケーションに脅威をもたらす。
本稿では,適応強度推定器と拡散モデルを用いて,プリスタンデータ分布を再構築できる新しい歪み認識型防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-29T14:32:43Z) - Discriminator-Free Generative Adversarial Attack [87.71852388383242]
生成的ベースの敵攻撃は、この制限を取り除くことができる。
ASymmetric Saliency-based Auto-Encoder (SSAE) は摂動を生成する。
SSAEが生成した敵の例は、広く使われているモデルを崩壊させるだけでなく、優れた視覚的品質を実現する。
論文 参考訳(メタデータ) (2021-07-20T01:55:21Z) - Generating Out of Distribution Adversarial Attack using Latent Space
Poisoning [5.1314136039587925]
本稿では,実際の画像が破損しない敵の例を生成する新しいメカニズムを提案する。
潜在空間表現は、画像の固有構造を改ざんするために利用される。
勾配ベースの攻撃とは対照的に、潜時空間中毒は、トレーニングデータセットの独立かつ同一分布をモデル化する分類器の傾きを利用する。
論文 参考訳(メタデータ) (2020-12-09T13:05:44Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。