Fugu-MT 論文翻訳(概要): SurrogatePrompt: Bypassing the Safety Filter of Text-To-Image Models via Substitution

論文の概要: SurrogatePrompt: Bypassing the Safety Filter of Text-To-Image Models via Substitution

arxiv url: http://arxiv.org/abs/2309.14122v1
Date: Mon, 25 Sep 2023 13:20:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-26 15:29:01.200906
Title: SurrogatePrompt: Bypassing the Safety Filter of Text-To-Image Models via Substitution
Title（参考訳）: surrogateprompt: 置換によるテキスト対画像モデルの安全フィルタをバイパスする
Authors: Zhongjie Ba, Jieming Zhong, Jiachen Lei, Peng Cheng, Qinglong Wang, Zhan Qin, Zhibo Wang, Kui Ren
Abstract要約: 我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
参考スコア（独自算出の注目度）: 22.882337899780968
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Advanced text-to-image models such as DALL-E 2 and Midjourney possess the capacity to generate highly realistic images, raising significant concerns regarding the potential proliferation of unsafe content. This includes adult, violent, or deceptive imagery of political figures. Despite claims of rigorous safety mechanisms implemented in these models to restrict the generation of not-safe-for-work (NSFW) content, we successfully devise and exhibit the first prompt attacks on Midjourney, resulting in the production of abundant photorealistic NSFW images. We reveal the fundamental principles of such prompt attacks and suggest strategically substituting high-risk sections within a suspect prompt to evade closed-source safety measures. Our novel framework, SurrogatePrompt, systematically generates attack prompts, utilizing large language models, image-to-text, and image-to-image modules to automate attack prompt creation at scale. Evaluation results disclose an 88% success rate in bypassing Midjourney's proprietary safety filter with our attack prompts, leading to the generation of counterfeit images depicting political figures in violent scenarios. Both subjective and objective assessments validate that the images generated from our attack prompts present considerable safety hazards.
Abstract（参考訳）: dall-e 2やmidjourneyのような高度なテキスト対画像モデルは、高度に現実的な画像を生成する能力を有しており、安全でないコンテンツの潜在的な増殖に関する重大な懸念を提起している。これには、大人、暴力的、あるいは政治的人物のイメージが含まれる。安全でない作業(NSFW)コンテンツの生成を制限するためにこれらのモデルに厳密な安全機構が実装されているにもかかわらず、我々はMidjourneyに対する最初の迅速な攻撃を考案し、その結果、豊富なフォトリアリスティックなNSFW画像を生成することに成功した。我々は,このような早期攻撃の基本原則を明らかにし,クローズドソース・セーフティ対策を回避しようとする疑似プロンプト内で,戦略的にリスクの高い部分を構成することを示唆する。我々の新しいフレームワークであるSurrogatePromptは、大規模言語モデル、画像とテキスト、画像と画像のモジュールを利用して、攻撃プロンプトを大規模に自動生成する。評価の結果、midjourneyの独自安全フィルターを回避して88%の成功率を明らかにし、暴力的なシナリオで政治的人物を描いた偽造画像の生成につながった。主観的評価も客観的評価も、攻撃によって生成された画像が相当な安全性の危険をもたらすことを検証します。

関連論文リスト

PromptSafe: Gated Prompt Tuning for Safe Text-to-Image Generation [30.2092299298228]
テキスト・ツー・イメージ(T2I)モデルは、暴力的または明示的なイメージなど、安全でない作業用コンテンツ(NSFW)の生成に脆弱である。本稿では,軽量でテキストのみを教師付きソフト埋め込みと,推論時間付きゲート制御ネットワークを組み合わせたゲートプロンプトチューニングフレームワークであるPromptSafeを提案する。 PromptSafeはSOTAの安全でない生成率(2.36%)を達成し,高い良性を維持していることを示す。
論文参考訳（メタデータ） (2025-08-02T09:09:40Z)
Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。 STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文参考訳（メタデータ） (2025-05-22T18:05:16Z)
ShieldGemma 2: Robust and Tractable Image Content Moderation [63.36923375135708]
ShieldGemma 2はGemma 3上に構築された4Bパラメータの画像コンテンツモデレーションモデルである。このモデルでは、Sexually Explicit、Violence & Gore、Dangerous Contentの合成画像に対して、以下の主要な危険カテゴリにわたって堅牢な安全性リスク予測を提供する。
論文参考訳（メタデータ） (2025-04-01T18:00:20Z)
Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文参考訳（メタデータ） (2025-03-14T17:39:45Z)
Jailbreaking Safeguarded Text-to-Image Models via Large Language Models [44.253924518111695]
安全ガードレールを用いたジェイルブレイク型テキスト・ツー・イメージモデルであるPromptTuneを提案する。他のクエリベースのジェイルブレイク攻撃とは異なり、攻撃は攻撃LLMを微調整した後、敵のプロンプトを効率的に生成する。提案手法は安全ガードレールを効果的に回避し,既存のno-box攻撃より優れ,クエリベースの攻撃も容易であることを示す。
論文参考訳（メタデータ） (2025-03-03T18:58:46Z)
CROPS: Model-Agnostic Training-Free Framework for Safe Image Synthesis with Latent Diffusion Models [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。我々は、NSFW画像を生成する敵攻撃に対して、追加の訓練を必要とせずに容易に防御できるモデルに依存しないフレームワークであるCROPSを提案する。
論文参考訳（メタデータ） (2025-01-09T16:43:21Z)
MLLM-as-a-Judge for Image Safety without Human Labeling [81.24707039432292]
AIGCの時代には、多くの画像生成モデルは有害なコンテンツを生成できる。確立された安全ルールに基づいて、このような安全でない画像を特定することが不可欠である。既存のアプローチでは、人間のラベル付きデータセットを使った微調整MLLMが一般的である。
論文参考訳（メタデータ） (2024-12-31T00:06:04Z)
Not Just Text: Uncovering Vision Modality Typographic Threats in Image Generation Models [26.681274483708165]
本稿では,様々な画像生成モデルが視覚モダリティ内の脅威の影響を受けやすいことを明らかにするために,タイポグラフィー攻撃という手法を用いる。また,視覚的モダリティの脅威に直面した既存手法の防御性能を評価し,その非効率性を明らかにする。
論文参考訳（メタデータ） (2024-12-07T04:55:39Z)
AdvI2I: Adversarial Image Attack on Image-to-Image Diffusion models [20.37481116837779]
AdvI2Iは、入力画像を操作して拡散モデルを誘導し、NSFWコンテンツを生成する新しいフレームワークである。ジェネレータを最適化して敵画像を作成することで、AdvI2Iは既存の防御機構を回避できる。本稿では,AdvI2IとAdvI2I-Adaptiveの両方が,現行の安全対策を効果的に回避可能であることを示す。
論文参考訳（メタデータ） (2024-10-28T19:15:06Z)
TrojVLM: Backdoor Attack Against Vision Language Models [50.87239635292717]
本研究では、視覚言語モデル(VLM)を対象としたバックドアアタックの最初の調査であるTrojVLMを紹介する。 TrojVLMは、有毒な画像に遭遇したとき、所定のターゲットテキストを出力テキストに挿入する。画像内容のセマンティックな整合性を確保するために,新たなセマンティック保存損失を提案する。
論文参考訳（メタデータ） (2024-09-28T04:37:09Z)
EIUP: A Training-Free Approach to Erase Non-Compliant Concepts Conditioned on Implicit Unsafe Prompts [32.590822043053734]
非有毒なテキストは、暗黙の安全でないプロンプトと呼ばれる非準拠のイメージを生成するリスクを伴っている。我々は、非準拠の概念を消去プロンプトに組み込む、単純で効果的なアプローチを提案する。本手法は,画像の忠実度を高いスコアで評価しながら,優れた消去効果を示す。
論文参考訳（メタデータ） (2024-08-02T05:17:14Z)
MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-06-13T15:55:04Z)
Principles of Designing Robust Remote Face Anti-Spoofing Systems [60.05766968805833]
本稿では,デジタル攻撃に対する最先端の対面防止手法の脆弱性に光を当てる。反偽造システムに遭遇する一般的な脅威を包括的に分類する。
論文参考訳（メタデータ） (2024-06-06T02:05:35Z)
White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文参考訳（メタデータ） (2024-05-28T07:13:30Z)
ART: Automatic Red-teaming for Text-to-Image Models to Protect Benign Users [18.3621509910395]
そこで本研究では,テキスト・ツー・イメージ・モデルの安全性を評価するために,新しい自動レッド・チーム・フレームワークARTを提案する。包括的実験により、人気のあるオープンソーステキスト・ツー・イメージモデルの毒性を明らかにする。また、テキスト・ツー・イメージ・モデルに関連する安全性リスクを研究するために、大規模な3つの赤チームデータセットも導入する。
論文参考訳（メタデータ） (2024-05-24T07:44:27Z)
On the Proactive Generation of Unsafe Images From Text-To-Image Models Using Benign Prompts [38.63253101205306]
従来の研究は、操作されたプロンプトがテキスト・ツー・イメージ・モデルを用いて安全でない画像を生成することを実証してきた。基本攻撃と実用性維持攻撃の2つの毒素攻撃を提案する。本研究は,実世界のシナリオにおけるテキスト・ツー・イメージ・モデル導入の潜在的なリスクを明らかにするものである。
論文参考訳（メタデータ） (2023-10-25T13:10:44Z)
Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文参考訳（メタデータ） (2023-10-16T02:11:20Z)
Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文参考訳（メタデータ） (2023-09-12T11:19:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。