論文の概要: PEPPER: Perception-Guided Perturbation for Robust Backdoor Defense in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2511.16830v1
- Date: Thu, 20 Nov 2025 22:21:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.823126
- Title: PEPPER: Perception-Guided Perturbation for Robust Backdoor Defense in Text-to-Image Diffusion Models
- Title(参考訳): PEPPER:テキスト・画像拡散モデルにおけるロバストバックドアディフェンスに対する知覚誘導型摂動
- Authors: Oscar Chew, Po-Yi Lu, Jayden Lin, Kuan-Hao Huang, Hsuan-Tien Lin,
- Abstract要約: PEPPER (PercePtion Guided PERturbation) は、意味的に遠いが視覚的に類似したキャプションにキャプションを書き換え、非破壊的な要素を追加する。
私たちのコードはGithubで公開される予定です。
- 参考スコア(独自算出の注目度): 14.15180378450301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies show that text to image (T2I) diffusion models are vulnerable to backdoor attacks, where a trigger in the input prompt can steer generation toward harmful or unintended content. To address this, we introduce PEPPER (PErcePtion Guided PERturbation), a backdoor defense that rewrites the caption into a semantically distant yet visually similar caption while adding unobstructive elements. With this rewriting strategy, PEPPER disrupt the trigger embedded in the input prompt, dilute the influence of trigger tokens and thereby achieve enhanced robustness. Experiments show that PEPPER is particularly effective against text encoder based attacks, substantially reducing attack success while preserving generation quality. Beyond this, PEPPER can be paired with any existing defenses yielding consistently stronger and generalizable robustness than any standalone method. Our code will be released on Github.
- Abstract(参考訳): 近年の研究では、テキスト・トゥ・イメージ(T2I)拡散モデルがバックドア攻撃に弱いことが示されており、入力プロンプトのトリガーが有害または意図しないコンテンツに対して生成する可能性がある。
そこで我々は, PEPPER (PErcePtion Guided PERturbation) というバックドアディフェンスを導入する。
この書き換え戦略により、PEPPERは入力プロンプトに埋め込まれたトリガーを妨害し、トリガートークンの影響を減らし、それによって堅牢性を高める。
実験の結果, PEPPERはテキストエンコーダベースの攻撃に対して特に有効であり, 生成品質を維持しながら攻撃成功を大幅に低減することがわかった。
さらに、PEPPERは既存の防御と組み合わせて、スタンドアローンメソッドよりも一貫して強く、一般化可能な堅牢性が得られる。
私たちのコードはGithubで公開される予定です。
関連論文リスト
- SRD: Reinforcement-Learned Semantic Perturbation for Backdoor Defense in VLMs [57.880467106470775]
攻撃者は、トレーニングデータに知覚不能な摂動を注入することができ、モデルが悪意のある攻撃的制御されたキャプションを生成する。
本稿では,引き金の事前知識を伴わずにバックドア動作を緩和する強化学習フレームワークであるセマンティック・リワード・ディフェンス(SRD)を提案する。
SRDはDeep Q-Networkを使用して、機密画像領域に個別の摂動を適用するためのポリシーを学習し、悪意ある経路の活性化を妨害することを目的としている。
論文 参考訳(メタデータ) (2025-06-05T08:22:24Z) - Adversarial Semantic and Label Perturbation Attack for Pedestrian Attribute Recognition [42.36333049201237]
本稿では,歩行者属性認識のための最初の対角攻撃と防御の枠組みを提案する。
事前に訓練されたCLIPベースのPARフレームワークに基づいて,歩行者画像に対するグローバルおよびパッチレベルの攻撃を併用する。
また、敵攻撃の影響を抑えるために、セマンティックオフセット防衛戦略を設計する。
論文 参考訳(メタデータ) (2025-05-29T10:17:17Z) - Defense Against Syntactic Textual Backdoor Attacks with Token Substitution [15.496176148454849]
トレーニング段階では、慎重に選択されたトリガを犠牲者モデルに組み込んで、特定のクラスと同じトリガを含む入力を誤って予測する。
本稿では,構文ベースと特別なトークンベースのバックドア攻撃を効果的に対処する新しいオンライン防御アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-04T22:48:57Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - OrderBkd: Textual backdoor attack through repositioning [0.0]
サードパーティのデータセットと事前トレーニングされた機械学習モデルは、NLPシステムに脅威をもたらす。
既存のバックドア攻撃は、トークンの挿入や文のパラフレーズなどのデータサンプルを毒殺する。
これまでの研究との大きな違いは、文中の2つの単語の配置をトリガーとして使うことです。
論文 参考訳(メタデータ) (2024-02-12T14:53:37Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in
Language Models [41.1058288041033]
本稿では,プロンプトに基づくクリーンラベルバックドア攻撃の新規かつ効率的な方法であるProAttackを提案する。
本手法では, 外部からのトリガーを必要とせず, 汚染試料の正確なラベル付けを保証し, バックドア攻撃のステルス性を向上させる。
論文 参考訳(メタデータ) (2023-05-02T06:19:36Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。