論文の概要: Universal Prompt Optimizer for Safe Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2402.10882v3
- Date: Tue, 25 Jun 2024 05:56:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 20:28:47.660457
- Title: Universal Prompt Optimizer for Safe Text-to-Image Generation
- Title(参考訳): 安全なテキスト・画像生成のためのユニバーサルプロンプト最適化
- Authors: Zongyu Wu, Hongcheng Gao, Yueze Wang, Xiang Zhang, Suhang Wang,
- Abstract要約: ブラックボックスシナリオにおける安全なT2I(POSI)生成のための最初の普遍的プロンプトを提案する。
提案手法は,不適切な画像を生成する際の様々なT2Iモデルの可能性を効果的に低減することができる。
- 参考スコア(独自算出の注目度): 27.32589928097192
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-to-Image (T2I) models have shown great performance in generating images based on textual prompts. However, these models are vulnerable to unsafe input to generate unsafe content like sexual, harassment and illegal-activity images. Existing studies based on image checker, model fine-tuning and embedding blocking are impractical in real-world applications. Hence, we propose the first universal prompt optimizer for safe T2I (POSI) generation in black-box scenario. We first construct a dataset consisting of toxic-clean prompt pairs by GPT-3.5 Turbo. To guide the optimizer to have the ability of converting toxic prompt to clean prompt while preserving semantic information, we design a novel reward function measuring toxicity and text alignment of generated images and train the optimizer through Proximal Policy Optimization. Experiments show that our approach can effectively reduce the likelihood of various T2I models in generating inappropriate images, with no significant impact on text alignment. It is also flexible to be combined with methods to achieve better performance. Our code is available at https://github.com/wzongyu/POSI.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは,テキスト・プロンプトに基づく画像生成において優れた性能を示した。
しかし、これらのモデルは、性的、ハラスメント、違法な活動的画像などの安全でないコンテンツを生成するために、安全でない入力に対して脆弱である。
画像チェッカー、モデルファインチューニング、埋め込みブロッキングに基づく既存の研究は、現実のアプリケーションでは実用的ではない。
そこで我々は,ブラックボックスシナリオにおける安全なT2I(POSI)生成のための最初のユニバーサルプロンプトオプティマイザを提案する。
まず, GPT-3.5 Turbo による毒性クリーンプロンプトペアからなるデータセットを構築した。
情報保存中に有害なプロンプトをクリーンなプロンプトに変換する能力を持つよう、我々は、生成した画像の毒性とテキストアライメントを測定する新しい報酬関数を設計し、プロキシポリシー最適化を通じてオプティマイザを訓練する。
実験により,テキストアライメントに大きな影響を及ぼすことなく,不適切な画像を生成する場合の様々なT2Iモデルの有効性を効果的に低減できることが示された。
また、より良いパフォーマンスを達成するためにメソッドと組み合わせることも柔軟です。
私たちのコードはhttps://github.com/wzongyu/POSI.comで利用可能です。
関連論文リスト
- RT-Attack: Jailbreaking Text-to-Image Models via Random Token [24.61198605177661]
ランダム検索を利用した2段階のクエリベースのブラックボックスアタック手法を提案する。
第1段階では、敵と標的の有害なプロンプト間の意味的類似性を最大化することにより、予備的なプロンプトを確立する。
第2段階では、この初期プロンプトを使用してアプローチを洗練し、脱獄を目的とした詳細な敵対的プロンプトを作成します。
論文 参考訳(メタデータ) (2024-08-25T17:33:40Z) - Direct Unlearning Optimization for Robust and Safe Text-to-Image Models [29.866192834825572]
モデルが潜在的に有害なコンテンツを生成する能力を取り除くために、未学習の技術が開発されている。
これらの手法は敵の攻撃によって容易に回避され、生成した画像の安全性を確保するには信頼性が低い。
T2IモデルからNot Safe For Work(NSFW)コンテンツを除去するための新しいフレームワークであるDirect Unlearning Optimization (DUO)を提案する。
論文 参考訳(メタデータ) (2024-07-17T08:19:11Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models [10.70975463369742]
JPA(Jailbreaking Prompt Attack)について紹介する。
JPAは、アントロニムのグループを使用してテキスト埋め込みスペース内のターゲットの悪意ある概念を検索する。
プレフィックスプロンプトは離散語彙空間で最適化され、テキスト埋め込み空間において悪意ある概念を意味的に整合させる。
論文 参考訳(メタデータ) (2024-04-02T09:49:35Z) - GuardT2I: Defending Text-to-Image Models from Adversarial Prompts [16.317849859000074]
GuardT2Iは、T2Iモデルの敵のプロンプトに対する堅牢性を高めるための生成的アプローチを採用する、新しいモデレーションフレームワークである。
実験の結果、GardetT2IはOpenAI-ModerationやMicrosoft Azure Moderatorといった主要な商用ソリューションよりも優れています。
論文 参考訳(メタデータ) (2024-03-03T09:04:34Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Get What You Want, Not What You Don't: Image Content Suppression for
Text-to-Image Diffusion Models [86.92711729969488]
テキスト埋め込みの操作方法を分析し、不要なコンテンツを除去する。
第1は、テキスト埋め込み行列を正規化し、望ましくないコンテンツを効果的に抑制する。
第2の方法は、プロンプトの不要なコンテンツ生成をさらに抑制し、所望のコンテンツの生成を促進することである。
論文 参考訳(メタデータ) (2024-02-08T03:15:06Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。