論文の概要: AutoPrompt: Automated Red-Teaming of Text-to-Image Models via LLM-Driven Adversarial Prompts
- arxiv url: http://arxiv.org/abs/2510.24034v1
- Date: Tue, 28 Oct 2025 03:32:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.73926
- Title: AutoPrompt: Automated Red-Teaming of Text-to-Image Models via LLM-Driven Adversarial Prompts
- Title(参考訳): AutoPrompt: LLM-Driven Adversarial Promptsによるテキスト・ツー・イメージモデルの自動再チーム化
- Authors: Yufan Liu, Wanqian Zhang, Huashan Chen, Lin Wang, Xiaojun Jia, Zheng Lin, Weiping Wang,
- Abstract要約: AutoPrompTはブラックボックスフレームワークで、良心的なプロンプトのために、人間が読める敵の接尾辞を自動的に生成する。
本稿では,2次回避戦略を最適化フェーズに導入し,難易度に基づくフィルタとブラックリストワードフィルタの両方のバイパスを可能にする。
実験では、人間の可読性、耐フィルタ性のある対向プロンプトの優れた赤チーム性能を実証した。
- 参考スコア(独自算出の注目度): 40.29708628615311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite rapid advancements in text-to-image (T2I) models, their safety mechanisms are vulnerable to adversarial prompts, which maliciously generate unsafe images. Current red-teaming methods for proactively assessing such vulnerabilities usually require white-box access to T2I models, and rely on inefficient per-prompt optimization, as well as inevitably generate semantically meaningless prompts easily blocked by filters. In this paper, we propose APT (AutoPrompT), a black-box framework that leverages large language models (LLMs) to automatically generate human-readable adversarial suffixes for benign prompts. We first introduce an alternating optimization-finetuning pipeline between adversarial suffix optimization and fine-tuning the LLM utilizing the optimized suffix. Furthermore, we integrates a dual-evasion strategy in optimization phase, enabling the bypass of both perplexity-based filter and blacklist word filter: (1) we constrain the LLM generating human-readable prompts through an auxiliary LLM perplexity scoring, which starkly contrasts with prior token-level gibberish, and (2) we also introduce banned-token penalties to suppress the explicit generation of banned-tokens in blacklist. Extensive experiments demonstrate the excellent red-teaming performance of our human-readable, filter-resistant adversarial prompts, as well as superior zero-shot transferability which enables instant adaptation to unseen prompts and exposes critical vulnerabilities even in commercial APIs (e.g., Leonardo.Ai.).
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルの急速な進歩にもかかわらず、それらの安全性メカニズムは敵のプロンプトに対して脆弱であり、悪意ある不安全画像を生成する。
このような脆弱性を積極的に評価するための現在のレッドチーム方式は、通常、T2Iモデルへのホワイトボックスアクセスを必要とし、プロンプト毎の最適化に頼らず、必然的にフィルタによってブロックされやすい意味的に意味のないプロンプトを生成する。
本稿では,大規模言語モデル(LLM)を活用するブラックボックスフレームワークであるAPT(AutoPrompT)を提案する。
まず, 逆接接尾辞最適化と, 最適化接尾辞を用いたLPMの微調整を交互に行うパイプラインを提案する。
さらに,2つの回避戦略を最適化フェーズに統合し,パープレキシティベースフィルタとブラックリストワードフィルタの両方のバイパスを可能にする。(1)従来のトークンレベルのジブベリッシュと非常に対照的な補助的なLCMパープレキシティスコアリングにより,人間の読みやすいプロンプトを生成するLSMを制限し,(2)ブラックリストにおける禁止トークンの明示的な生成を抑えるための禁制罰も導入する。
広範にわたる実験は、人間の可読性、フィルタに抵抗する敵のプロンプトの優れたリピート性能と、目に見えないプロンプトへの即時適応を可能にし、商用API(Leonardo.Aiなど)においても重大な脆弱性を露呈する優れたゼロショットトランスファービリティを実証する。
関連論文リスト
- GhostPrompt: Jailbreaking Text-to-image Generative Models based on Dynamic Optimization [19.44247617251449]
動的プロンプト最適化とマルチモーダルフィードバックを組み合わせた最初の自動ジェイルブレイクフレームワークであるGhostPromptを紹介した。
最先端の性能を達成し、ShieldLM-7Bバイパス率を12.5%から99.0%に向上させた。
GPT-4.1を含む未知のフィルタに一般化し、DALLE 3を脱獄してNSFW画像を生成する。
論文 参考訳(メタデータ) (2025-05-25T05:13:06Z) - Reason2Attack: Jailbreaking Text-to-Image Models via LLM Reasoning [34.73320827764541]
テキスト・トゥ・イメージ(T2I)モデルは一般的に、機密画像の発生を防ぐために安全フィルタを配置する。
最近のジェイルブレイク攻撃手法は、LSMが敵のプロンプトを生成するように手動で設計する。
本稿では,LLMの推論能力を高めることを目的としたReason2Attack(R2A)を提案する。
論文 参考訳(メタデータ) (2025-03-23T08:40:39Z) - GASP: Efficient Black-Box Generation of Adversarial Suffixes for Jailbreaking LLMs [3.096869664709865]
本稿では,Jailbreakプロンプトを効率的に生成できる新しいフレームワークであるGenerative Adversarial Suffix Prompter(GASP)を紹介する。
我々は,GASPが自然な敵のプロンプトを生成でき,ベースラインよりもジェイルブレイクの成功を著しく改善し,トレーニング時間を短縮し,推論速度を加速できることを示す。
論文 参考訳(メタデータ) (2024-11-21T14:00:01Z) - AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs [51.217126257318924]
大規模言語モデル(LLM)は、不適切または有害なコンテンツの生成につながるジェイルブレイク攻撃に対して脆弱である。
本稿では,AdvPrompter という別の LLM を用いて,人間可読な逆数プロンプトを数秒で生成する手法を提案する。
論文 参考訳(メタデータ) (2024-04-21T22:18:13Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - Certifying LLM Safety against Adversarial Prompting [70.96868018621167]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。