論文の概要: PLA: Prompt Learning Attack against Text-to-Image Generative Models
- arxiv url: http://arxiv.org/abs/2508.03696v1
- Date: Mon, 14 Jul 2025 11:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-10 09:30:49.323036
- Title: PLA: Prompt Learning Attack against Text-to-Image Generative Models
- Title(参考訳): PLA: テキスト・画像生成モデルに対するプロンプト学習攻撃
- Authors: Xinqi Lyu, Yihao Liu, Yanjie Li, Bin Xiao,
- Abstract要約: テキスト・ツー・イメージ(T2I)モデルは、Not-Safe-For-Work(NSFW)コンテンツを生成する大きなリスクをもたらす。
そこで本稿では,ブラックボックス設定における対戦型プロンプトの学習を容易にする新しいプロンプト学習攻撃フレームワーク(PLA)を提案する。
実験により, ブラックボックスT2Iモデルの安全機構を高い成功率で効果的に攻撃できることが示された。
- 参考スコア(独自算出の注目度): 11.86785431944315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Image (T2I) models have gained widespread adoption across various applications. Despite the success, the potential misuse of T2I models poses significant risks of generating Not-Safe-For-Work (NSFW) content. To investigate the vulnerability of T2I models, this paper delves into adversarial attacks to bypass the safety mechanisms under black-box settings. Most previous methods rely on word substitution to search adversarial prompts. Due to limited search space, this leads to suboptimal performance compared to gradient-based training. However, black-box settings present unique challenges to training gradient-driven attack methods, since there is no access to the internal architecture and parameters of T2I models. To facilitate the learning of adversarial prompts in black-box settings, we propose a novel prompt learning attack framework (PLA), where insightful gradient-based training tailored to black-box T2I models is designed by utilizing multimodal similarities. Experiments show that our new method can effectively attack the safety mechanisms of black-box T2I models including prompt filters and post-hoc safety checkers with a high success rate compared to state-of-the-art methods. Warning: This paper may contain offensive model-generated content.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは様々なアプリケーションで広く採用されている。
この成功にもかかわらず、T2Iモデルの潜在的な誤用は、Not-Safe-For-Work(NSFW)コンテンツを生成する重大なリスクをもたらす。
本論文は,T2Iモデルの脆弱性を調べるため,ブラックボックス設定下での安全機構を回避すべく,敵攻撃に対処する。
従来の手法のほとんどは、相手のプロンプトを検索するために単語置換に依存していた。
探索空間が限られているため、勾配に基づくトレーニングに比べて最適以下の性能が向上する。
しかしながら、ブラックボックス設定は、T2Iモデルの内部アーキテクチャやパラメータにアクセスできないため、勾配駆動型アタックメソッドのトレーニングに固有の課題がある。
ブラックボックス設定における敵対的プロンプトの学習を容易にするために,ブラックボックスT2Iモデルに適合した洞察に富んだ勾配に基づくトレーニングをマルチモーダルな類似性を利用して設計する,新しいプロンプト学習攻撃フレームワーク(PLA)を提案する。
実験により,本手法は,最先端の手法と比較して高い成功率で,プロンプトフィルタやポストホックセーフティチェッカーを含むブラックボックスT2Iモデルの安全性メカニズムを効果的に攻撃できることが示された。
警告: 本論文は、攻撃的モデル生成コンテンツを含む可能性がある。
関連論文リスト
- GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。
近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。
我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:09:12Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - HTS-Attack: Heuristic Token Search for Jailbreaking Text-to-Image Models [28.28898114141277]
テキスト・トゥ・イメージ(T2I)モデルは画像生成と編集において顕著な成功を収めた。
これらのモデルには、特に不適切な、あるいは安全でない(NSFW)コンテンツを生成する場合に、多くの潜在的な問題がある。
本稿では,トークン探索攻撃手法であるHTS-Attackを提案する。
論文 参考訳(メタデータ) (2024-08-25T17:33:40Z) - DiffZOO: A Purely Query-Based Black-Box Attack for Red-teaming Text-to-Image Generative Model via Zeroth Order Optimization [20.958826487430194]
適切なコンテンツを生成するためのT2Iモデルの能力を拡張または公開するために、レッドチーム攻撃法が提案されている。
我々は,ゼロ次最適化を勾配近似に応用し,C-PRVとD-PRVの両方を用いて攻撃プロンプトを強化するDiffZOOを提案する。
複数の最先端安全メカニズムの実験により、DiffZOOは以前の作業よりも平均攻撃成功率が8.5%高いことが示されている。
論文 参考訳(メタデータ) (2024-08-18T03:16:59Z) - Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation [149.96612254604986]
PRISMは人間の解釈可能なプロンプトを自動生成するアルゴリズムである。
大規模言語モデル(LLM)のジェイルブレイクにインスパイアされたPRISMは、LLMのコンテキスト内学習能力を活用して、候補のプロンプト分布を反復的に洗練する。
本実験は,複数のT2Iモデルのオブジェクト,スタイル,画像の正確なプロンプトを生成する上で,PRISMの有効性と有効性を示すものである。
論文 参考訳(メタデータ) (2024-03-28T02:35:53Z) - Cross-Modal Transferable Adversarial Attacks from Images to Videos [82.0745476838865]
近年の研究では、一方のホワイトボックスモデルで手作りされた敵の例は、他のブラックボックスモデルを攻撃するために使用できることが示されている。
本稿では,イメージ・トゥ・ビデオ(I2V)攻撃と呼ばれる,シンプルだが効果的なクロスモーダル・アタック手法を提案する。
I2Vは、事前訓練された画像モデルの特徴と良質な例とのコサイン類似性を最小化して、対向フレームを生成する。
論文 参考訳(メタデータ) (2021-12-10T08:19:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。