論文の概要: Erased but Not Forgotten: How Backdoors Compromise Concept Erasure
- arxiv url: http://arxiv.org/abs/2504.21072v1
- Date: Tue, 29 Apr 2025 16:13:06 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-05-02 15:42:57.589334
- Title: Erased but Not Forgotten: How Backdoors Compromise Concept Erasure
- Title(参考訳): 時代遅れだが忘れられていない: バックドアはいかにコンセプトの消去を妥協するか
- Authors: Jonas Henry Grebe, Tobias Braun, Marcus Rohrbach, Anna Rohrbach,
- Abstract要約: 我々は、新しい脅威モデル、Toxic Erasure(ToxE)を導入し、最近の未学習アルゴリズムがターゲットのバックドア攻撃によってどのように回避できるかを実証する。
明示的な内容の消去のために、ToxE攻撃は最大9倍の露出した身体部位を誘発し、disAは2.9倍の平均的な増加をもたらす。
- 参考スコア(独自算出の注目度): 36.056298969999645
- License:
- Abstract: The expansion of large-scale text-to-image diffusion models has raised growing concerns about their potential to generate undesirable or harmful content, ranging from fabricated depictions of public figures to sexually explicit images. To mitigate these risks, prior work has devised machine unlearning techniques that attempt to erase unwanted concepts through fine-tuning. However, in this paper, we introduce a new threat model, Toxic Erasure (ToxE), and demonstrate how recent unlearning algorithms, including those explicitly designed for robustness, can be circumvented through targeted backdoor attacks. The threat is realized by establishing a link between a trigger and the undesired content. Subsequent unlearning attempts fail to erase this link, allowing adversaries to produce harmful content. We instantiate ToxE via two established backdoor attacks: one targeting the text encoder and another manipulating the cross-attention layers. Further, we introduce Deep Intervention Score-based Attack (DISA), a novel, deeper backdoor attack that optimizes the entire U-Net using a score-based objective, improving the attack's persistence across different erasure methods. We evaluate five recent concept erasure methods against our threat model. For celebrity identity erasure, our deep attack circumvents erasure with up to 82% success, averaging 57% across all erasure methods. For explicit content erasure, ToxE attacks can elicit up to 9 times more exposed body parts, with DISA yielding an average increase by a factor of 2.9. These results highlight a critical security gap in current unlearning strategies.
- Abstract(参考訳): 大規模なテキストから画像への拡散モデルの拡大は、公開人物の創作された描写から性的明示的なイメージまで、望ましくない、有害なコンテンツを生成する可能性への懸念が高まっている。
これらのリスクを軽減するために、事前の作業は、微調整によって不要な概念を消そうとする機械学習テクニックを考案した。
しかし,本稿では,新たな脅威モデルであるToxic Erasure(ToxE)を導入し,最近の非学習アルゴリズムが,ロバスト性に特化して設計されているものも含めて,ターゲットのバックドアアタックによっていかに回避できるかを実証する。
この脅威は、トリガーと望ましくないコンテンツとのリンクを確立することで実現される。
その後の未学習の試みはこのリンクを消去できず、敵は有害なコンテンツを生成できる。
ToxEを2つの確立したバックドア攻撃によってインスタンス化する。
さらに,新たなバックドア攻撃であるDeep Intervention Score-based Attack (DISA)を導入する。
脅威モデルに対する最近の概念消去手法を5つ評価した。
セレブのアイデンティティの消去では、私たちのディープアタックは、最大82%の成功で消去を回避し、すべての消去方法の平均57%を回避します。
明示的な内容の消去のために、ToxE攻撃は最大で9倍の露出部位を誘発し、disAは2.9倍の平均的な増加をもたらす。
これらの結果は、現在の未学習戦略における重要なセキュリティギャップを浮き彫りにしている。
関連論文リスト
- TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [45.393001061726366]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。
リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。
本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文 参考訳(メタデータ) (2025-03-10T14:37:53Z) - On the Vulnerability of Concept Erasure in Diffusion Models [13.916443687966039]
マシン・アンラーニングの研究は、ホック後のトレーニングを通じて不要なデータの影響を除去することを目的とした、様々な概念消去手法を開発した。
これらの消去技術は脆弱であり、敵に製作されたプロンプトを用いて、消去されたとされる概念のイメージを生成可能であることを示す。
本稿では, 削除コンテンツの生成を誘導できるプロンプトを検出するアルゴリズムであるRECORDを紹介する。
論文 参考訳(メタデータ) (2025-02-24T17:26:01Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - You Know What I'm Saying: Jailbreak Attack via Implicit Reference [22.520950422702757]
本研究は、以前見過ごされた脆弱性を特定し、Implicit Reference (AIR) による攻撃(Attack)と呼ぶ。
AIRは悪意のある目的を許容可能な目的に分解し、コンテキスト内の暗黙の参照を通してそれらをリンクする。
我々の実験は、AIRが最先端のLLMに対して有効であることを示し、ほとんどのモデルで90%を超える攻撃成功率(ASR)を達成した。
論文 参考訳(メタデータ) (2024-10-04T18:42:57Z) - Towards Unified Robustness Against Both Backdoor and Adversarial Attacks [31.846262387360767]
ディープニューラルネットワーク(DNN)は、バックドアと敵の攻撃の両方に対して脆弱であることが知られている。
本稿では,バックドアと敵の攻撃との間には興味深い関係があることを明らかにする。
バックドアと敵の攻撃を同時に防御する新しいプログレッシブ統一防衛アルゴリズムが提案されている。
論文 参考訳(メタデータ) (2024-05-28T07:50:00Z) - Poisoned Forgery Face: Towards Backdoor Attacks on Face Forgery
Detection [62.595450266262645]
本稿では,バックドア攻撃による顔偽造検出の新たな脅威について紹介する。
バックドアをモデルに埋め込むことで、攻撃者は検知器を騙して偽造された顔の誤予測を発生させることができる。
我々は,顔偽造検知器に対するクリーンラベルバックドア攻撃を可能にするemphPoisoned Forgery Faceフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T06:31:05Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。