Fugu-MT 論文翻訳(概要): Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models

論文の概要: Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models

arxiv url: http://arxiv.org/abs/2404.02928v1
Date: Tue, 2 Apr 2024 09:49:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-05 19:04:16.723806
Title: Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models
Title（参考訳）: 脱獄プロンプト攻撃:拡散モデルに対する制御可能な敵攻撃
Authors: Jiachen Ma, Anda Cao, Zhiqing Xiao, Jie Zhang, Chao Ye, Junbo Zhao,
Abstract要約: 本稿では,三つのメリットを享受するブラックボックス攻撃法を紹介する。 i)ディレクティブとセマンティック駆動の両方のアタックを可能にし、理論上、事実上、この巨大なユーザコミュニティに危険をもたらす。 CLIP埋め込み空間における単純なガイダンスの実行とセマンティックな損失と追加のセンシティブな単語リストの併用は、非常にうまく機能することがわかった。
参考スコア（独自算出の注目度）: 11.24680299774092
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The fast advance of the image generation community has attracted attention worldwide. The safety issue needs to be further scrutinized and studied. There have been a few works around this area mostly achieving a post-processing design, model-specific, or yielding suboptimal image quality generation. Despite that, in this article, we discover a black-box attack method that enjoys three merits. It enables (i)-attacks both directed and semantic-driven that theoretically and practically pose a hazard to this vast user community, (ii)-surprisingly surpasses the white-box attack in a black-box manner and (iii)-without requiring any post-processing effort. Core to our approach is inspired by the concept guidance intriguing property of Classifier-Free guidance (CFG) in T2I models, and we discover that conducting frustratingly simple guidance in the CLIP embedding space, coupled with the semantic loss and an additionally sensitive word list works very well. Moreover, our results expose and highlight the vulnerabilities in existing defense mechanisms.
Abstract（参考訳）: 画像生成コミュニティの急速な進歩は世界中で注目を集めている。安全性の問題をさらに精査し、研究する必要がある。この分野には、主に後処理設計、モデル固有の、あるいは最適下画像の品質生成を実現するいくつかの研究がある。それにもかかわらず,本稿では,三つのメリットを享受できるブラックボックス攻撃法を見出す。可能。一理論上、事実上この広大なユーザコミュニティに危険をもたらす、指示的かつ意味的駆動的な攻撃。 (二)必然的にブラックボックス方式でホワイトボックス攻撃を超越し、 (iii)後処理を一切必要とせずに。提案手法のコアとなるのは,T2Iモデルにおける分類自由誘導(CFG)の持つ特性に着想を得た概念であり,CLIP埋め込み空間において,意味的損失と付加的なセンシティブな単語リストを併用して,フラストレーションに単純なガイダンスを実行することは極めて有効であることがわかった。さらに,既存の防御機構の脆弱性を明らかにし,強調した。

関連論文リスト

NSFW-Classifier Guided Prompt Sanitization for Safe Text-to-Image Generation [47.03824997129498]
大きな言語モデルの"jailbreak"攻撃は、微妙な迅速な修正を通じて制限をバイパスする。 PromptSanは、モデルアーキテクチャを変更することなく有害なプロンプトを解毒するための新しいアプローチである。 PromptSanは、複数のメトリクスにわたる有害なコンテンツ生成を減らすことで、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-06-23T06:17:30Z)
GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文参考訳（メタデータ） (2025-06-11T09:09:12Z)
T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文参考訳（メタデータ） (2025-04-22T01:18:42Z)
Distorting Embedding Space for Safety: A Defense Mechanism for Adversarially Robust Diffusion Models [4.5656369638728656]
Distorting Embedding Space (DES) はテキストエンコーダベースの防御機構である。 DESは、アンセーフプロンプトを用いてテキストエンコーダから抽出されたアンセーフな埋め込みを、慎重に計算された安全な埋め込み領域に変換する。 DESはまた、敵攻撃に対する堅牢性を高めるために、中立的な埋め込みと整列することで、即時ヌードを用いて抽出されたヌード埋め込みを中和する。
論文参考訳（メタデータ） (2025-01-31T04:14:05Z)
AdvI2I: Adversarial Image Attack on Image-to-Image Diffusion models [20.37481116837779]
AdvI2Iは、入力画像を操作して拡散モデルを誘導し、NSFWコンテンツを生成する新しいフレームワークである。ジェネレータを最適化して敵画像を作成することで、AdvI2Iは既存の防御機構を回避できる。本稿では,AdvI2IとAdvI2I-Adaptiveの両方が,現行の安全対策を効果的に回避可能であることを示す。
論文参考訳（メタデータ） (2024-10-28T19:15:06Z)
Multimodal Pragmatic Jailbreak on Text-to-image Models [42.53834190690214]
この研究は、新しいタイプのjailbreakを導入し、T2Iモデルをトリガーして、ビジュアルテキストで画像を生成する。我々は、2つのクローズドソース商用モデルを含む9つの代表的なT2Iモデルをベンチマークする。我々の研究は、よりセキュアで信頼性の高いT2Iモデルに向けたさらなる開発基盤を提供する。
論文参考訳（メタデータ） (2024-09-27T21:23:46Z)
RT-Attack: Jailbreaking Text-to-Image Models via Random Token [24.61198605177661]
ランダム検索を利用した2段階のクエリベースのブラックボックスアタック手法を提案する。第1段階では、敵と標的の有害なプロンプト間の意味的類似性を最大化することにより、予備的なプロンプトを確立する。第2段階では、この初期プロンプトを使用してアプローチを洗練し、脱獄を目的とした詳細な敵対的プロンプトを作成します。
論文参考訳（メタデータ） (2024-08-25T17:33:40Z)
Perception-guided Jailbreak against Text-to-Image Models [18.825079959947857]
PGJと呼ばれるLPM駆動型知覚誘導ジェイルブレイク法を提案する。これは、特定のT2Iモデル(モデルフリー)を必要としないブラックボックスジェイルブレイク方式であり、非常に自然な攻撃プロンプトを生成する。 6つのオープンソースモデルと何千ものプロンプトによる商用オンラインサービスによる実験により,PGJの有効性が検証された。
論文参考訳（メタデータ） (2024-08-20T13:40:25Z)
Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文参考訳（メタデータ） (2024-06-06T13:00:42Z)
White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文参考訳（メタデータ） (2024-05-28T07:13:30Z)
Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文参考訳（メタデータ） (2024-04-11T17:59:52Z)
GuardT2I: Defending Text-to-Image Models from Adversarial Prompts [16.317849859000074]
GuardT2Iは、T2Iモデルの敵のプロンプトに対する堅牢性を高めるための生成的アプローチを採用する、新しいモデレーションフレームワークである。実験の結果、GardetT2IはOpenAI-ModerationやMicrosoft Azure Moderatorといった主要な商用ソリューションよりも優れています。
論文参考訳（メタデータ） (2024-03-03T09:04:34Z)
Get What You Want, Not What You Don't: Image Content Suppression for Text-to-Image Diffusion Models [86.92711729969488]
テキスト埋め込みの操作方法を分析し、不要なコンテンツを除去する。第1は、テキスト埋め込み行列を正規化し、望ましくないコンテンツを効果的に抑制する。第2の方法は、プロンプトの不要なコンテンツ生成をさらに抑制し、所望のコンテンツの生成を促進することである。
論文参考訳（メタデータ） (2024-02-08T03:15:06Z)
AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。 AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文参考訳（メタデータ） (2023-10-03T19:44:37Z)
Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models [79.50701155336198]
textbfForget-Me-Notは、適切に設定されたテキスト・ツー・イメージモデルから、指定されたID、オブジェクト、スタイルを30秒で安全に削除するように設計されている。我々は,Forget-Me-Notが,モデルの性能を他の概念に保ちながら,ターゲットとなる概念を効果的に排除できることを実証した。また、Stable Diffusionの軽量モデルパッチとして適応することができ、コンセプト操作と便利な配布を可能にしている。
論文参考訳（メタデータ） (2023-03-30T17:58:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。