論文の概要: Erased but Exploitable: Black-box Embedding-Aware Prompting Against Unlearned Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2605.26332v1
- Date: Mon, 25 May 2026 21:11:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.470656
- Title: Erased but Exploitable: Black-box Embedding-Aware Prompting Against Unlearned Text-to-Image Diffusion Models
- Title(参考訳): 老朽化したが爆発性:未学習のテキスト・画像拡散モデルに対するブラックボックス・エンベディング・アウェア・プロンプト
- Authors: Arian Komaei Koma, Seyed Amir Kasaei, AmirMahdi Sadeghzadeh, Mohammad Hossein Rohban,
- Abstract要約: 機械学習は、事前訓練されたテキストから画像への拡散モデルから特定の概念を取り除くことを目的としている。
ホワイトボックスとブラックボックスの攻撃は、モデルがそのような未学習の概念を生成するために導入された。
我々は,ブラックボックスの埋め込み型対逆攻撃であるBEAPを紹介した。
- 参考スコア(独自算出の注目度): 7.779776003329964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning aims to remove specific concepts from pretrained text-to-image diffusion models, yet several white- and black-box attacks have been introduced to make the model generate such unlearned concepts. These attacks, nevertheless, do not assume a realistic threat model, i.e. they either assume access to the model weights, or result in gibberish adversarial prompts that could be easily detected even through naive rule-based safeguarding. We aim to address this gap in this paper. We introduce BEAP, a black-box, embedding-aware adversarial prompting attack that leverages a large language model (LLM) to iteratively generate effective adversarial prompts and exploit such hidden vulnerabilities. BEAP performs an embedding-aware search in text space, combining multiple reward signals: unlearned concept presence, text-image alignment, and image quality, to refine generated prompts. Unlike previous attack methods, BEAP keeps its prompts undetectable to safety filters while producing high-quality images. Extensive experiments show that BEAP improves the Attack Success Rate (ASR) by more than 60% over prior methods, while requiring only an average of fifteen prompts per successful attack. Warning: This paper contains model outputs that may be offensive or upsetting in nature.
- Abstract(参考訳): 機械学習は、事前訓練されたテキストから画像への拡散モデルから特定の概念を取り除くことを目的としているが、モデルがそのような未学習の概念を生成するために、いくつかの白と黒のボックス攻撃が導入されている。
これらの攻撃は、現実的な脅威モデル、すなわちモデルウェイトへのアクセスを前提とするか、あるいは単純なルールベースの保護を通じて容易に検出できるジブベリの敵のプロンプトを生じさせる。
本論文では,このギャップに対処することを目指している。
我々は,大規模言語モデル (LLM) を利用したブラックボックスの埋め込み型敵プロンプト攻撃であるBEAPを導入し,効果的な敵プロンプトを反復的に生成し,そのような隠れた脆弱性を悪用する。
BEAPはテキスト空間に埋め込みを意識した検索を行い、複数の報酬信号(未学習の概念の存在、テキストイメージアライメント、画像品質)を組み合わせて生成されたプロンプトを洗練させる。
従来の攻撃方法とは異なり、BEAPは高品質な画像を生成しながら、安全フィルタに検出不能なプロンプトを保っている。
実験の結果、BEAPは攻撃成功率(ASR)を従来の手法よりも60%以上改善し、攻撃が成功すれば平均15のプロンプトしか必要としないことがわかった。
警告:本論文は、自然界で攻撃的あるいは動揺しているかもしれないモデルアウトプットを含む。
関連論文リスト
- TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [53.937498564603054]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。
リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。
本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文 参考訳(メタデータ) (2025-03-10T14:37:53Z) - Rethinking the Vulnerability of Concept Erasure and a New Method [9.044763606650646]
概念消去 (defense) 法は、ポストホック微調整によって特定の概念を「未学習」するために開発された。
最近の概念復元(アタック)手法は、これら消去されたと思われる概念を、逆向きのプロンプトで復元できることを実証している。
本稿では,従来の修復手法を最大17.8倍に向上させる新しい座標descentベースの復元アルゴリズムである**RECORD*を紹介する。
論文 参考訳(メタデータ) (2025-02-24T17:26:01Z) - Mitigating Sexual Content Generation via Embedding Distortion in Text-conditioned Diffusion Models [2.2917707112773593]
Distorting Embedding Space (DES) はテキストエンコーダベースの防御機構である。
DESは、アンセーフプロンプトを用いてテキストエンコーダから抽出されたアンセーフな埋め込みを、慎重に計算された安全な埋め込み領域に変換する。
DESはまた、敵の攻撃に対する堅牢性を高めるために、ヌードの埋め込みを中立的な埋め込みと整合させることで、ヌードの埋め込みを中和する。
論文 参考訳(メタデータ) (2025-01-31T04:14:05Z) - HTS-Attack: Heuristic Token Search for Jailbreaking Text-to-Image Models [28.28898114141277]
テキスト・トゥ・イメージ(T2I)モデルは画像生成と編集において顕著な成功を収めた。
これらのモデルには、特に不適切な、あるいは安全でない(NSFW)コンテンツを生成する場合に、多くの潜在的な問題がある。
本稿では,トークン探索攻撃手法であるHTS-Attackを提案する。
論文 参考訳(メタデータ) (2024-08-25T17:33:40Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Revisiting the Adversarial Robustness of Vision Language Models: a Multimodal Perspective [42.04728834962863]
CLIPのような事前訓練された視覚言語モデル(VLM)は、様々な下流タスクにまたがる例外的な一般化を示している。
近年の研究では、テキストベースおよびマルチモーダル攻撃に対する防御がほとんど未調査のままであり、敵攻撃に対する脆弱性が明らかにされている。
本研究は,画像,テキスト,マルチモーダル入力を標的とした攻撃に対して,VLMの対角的堅牢性を改善するための最初の総合的研究である。
論文 参考訳(メタデータ) (2024-04-30T06:34:21Z) - Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。