論文の概要: Safe Text-to-Image Generation: Simply Sanitize the Prompt Embedding
- arxiv url: http://arxiv.org/abs/2411.10329v1
- Date: Fri, 15 Nov 2024 16:29:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:39:32.163933
- Title: Safe Text-to-Image Generation: Simply Sanitize the Prompt Embedding
- Title(参考訳): 安全なテキスト・ツー・イメージ・ジェネレーション:簡単にプロンプト・エンベディングを消毒する
- Authors: Huming Qiu, Guanxu Chen, Mi Zhang, Min Yang,
- Abstract要約: 視覚に依存しない安全な生成フレームワーク Embedding Sanitizer (ES) を提案する。
ESは、迅速な埋め込みから不適切な概念を消去することに焦点を当て、安全な生成のためにモデルをガイドするために、衛生的な埋め込みを使用する。
ESは、生成品質を維持しつつ、解釈性と制御性の観点から既存の安全ガードを著しく上回っている。
- 参考スコア(独自算出の注目度): 13.481343482138888
- License:
- Abstract: In recent years, text-to-image (T2I) generation models have made significant progress in generating high-quality images that align with text descriptions. However, these models also face the risk of unsafe generation, potentially producing harmful content that violates usage policies, such as explicit material. Existing safe generation methods typically focus on suppressing inappropriate content by erasing undesired concepts from visual representations, while neglecting to sanitize the textual representation. Although these methods help mitigate the risk of misuse to certain extent, their robustness remains insufficient when dealing with adversarial attacks. Given that semantic consistency between input text and output image is a fundamental requirement for T2I models, we identify that textual representations (i.e., prompt embeddings) are likely the primary source of unsafe generation. To this end, we propose a vision-agnostic safe generation framework, Embedding Sanitizer (ES), which focuses on erasing inappropriate concepts from prompt embeddings and uses the sanitized embeddings to guide the model for safe generation. ES is applied to the output of the text encoder as a plug-and-play module, enabling seamless integration with different T2I models as well as other safeguards. In addition, ES's unique scoring mechanism assigns a score to each token in the prompt to indicate its potential harmfulness, and dynamically adjusts the sanitization intensity to balance defensive performance and generation quality. Through extensive evaluation on five prompt benchmarks, our approach achieves state-of-the-art robustness by sanitizing the source (prompt embedding) of unsafe generation compared to nine baseline methods. It significantly outperforms existing safeguards in terms of interpretability and controllability while maintaining generation quality.
- Abstract(参考訳): 近年,テキスト・ツー・イメージ(T2I)生成モデルは,テキスト記述と整合した高品質な画像の生成において大きな進歩を遂げている。
しかし、これらのモデルはまた、安全でない生成のリスクに直面し、明示的な材料のような使用ポリシーに違反した有害なコンテンツを生成する可能性がある。
既存の安全な生成手法は、典型的には、望ましくない概念を視覚的表現から排除し、テキスト表現を衛生化するのを無視することで、不適切なコンテンツを抑制することに重点を置いている。
これらの手法は誤用リスクをある程度軽減するのに役立つが、敵の攻撃に対処する際の堅牢性は依然として不十分である。
入力テキストと出力画像のセマンティック一貫性がT2Iモデルの基本要件であることを考えると、テキスト表現(即時埋め込み)が安全でない生成の主要な原因である可能性が高い。
そこで本稿では, 組込みの迅速化から不適切な概念を消去することに焦点を当て, 安全な生成のためのモデルガイドとして, 衛生的な組込みを用いた視覚非依存型安全な生成フレームワーク, Embedding Sanitizer (ES) を提案する。
ESはテキストエンコーダの出力にプラグイン・アンド・プレイモジュールとして適用され、異なるT2Iモデルとのシームレスな統合や、他のセーフガードを可能にする。
さらに、ESのユニークなスコアリング機構は、その潜在的な有害性を示すプロンプトにおいて各トークンにスコアを割り当て、防衛性能と生成品質のバランスをとるために、衛生強度を動的に調整する。
提案手法は, 安全でない生成源(プロンプト埋め込み)を9つのベースライン法と比較することにより, 最先端のロバスト性を実現する。
生成品質を維持しつつ、解釈性と制御性の観点から、既存の安全ガードを著しく上回っている。
関連論文リスト
- SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation [65.30207993362595]
安全な生成のための学習/編集に基づく手法は、モデルから有害な概念を取り除くが、いくつかの課題に直面している。
安全なT2IとT2VのためのトレーニングフリーアプローチであるSAFREEを提案する。
テキスト埋め込み空間における有毒な概念の集合に対応する部分空間を検出し、この部分空間から直ちに埋め込みを行う。
論文 参考訳(メタデータ) (2024-10-16T17:32:23Z) - ShieldDiff: Suppressing Sexual Content Generation from Diffusion Models through Reinforcement Learning [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは、不快な内容の安全でない画像を生成する可能性がある。
我々の研究では、T2IモデルからNSFW(職場では安全ではない)コンテンツ生成を排除することに重点を置いています。
本稿では,CLIP(Contrastive Language- Image Pre-Trening)とヌード報酬(nudity rewards)から構成される独自の報酬関数を提案する。
論文 参考訳(メタデータ) (2024-10-04T19:37:56Z) - EIUP: A Training-Free Approach to Erase Non-Compliant Concepts Conditioned on Implicit Unsafe Prompts [32.590822043053734]
非有毒なテキストは、暗黙の安全でないプロンプトと呼ばれる非準拠のイメージを生成するリスクを伴っている。
我々は、非準拠の概念を消去プロンプトに組み込む、単純で効果的なアプローチを提案する。
本手法は,画像の忠実度を高いスコアで評価しながら,優れた消去効果を示す。
論文 参考訳(メタデータ) (2024-08-02T05:17:14Z) - Direct Unlearning Optimization for Robust and Safe Text-to-Image Models [29.866192834825572]
モデルが潜在的に有害なコンテンツを生成する能力を取り除くために、未学習の技術が開発されている。
これらの手法は敵の攻撃によって容易に回避され、生成した画像の安全性を確保するには信頼性が低い。
T2IモデルからNot Safe For Work(NSFW)コンテンツを除去するための新しいフレームワークであるDirect Unlearning Optimization (DUO)を提案する。
論文 参考訳(メタデータ) (2024-07-17T08:19:11Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - SafeGen: Mitigating Sexually Explicit Content Generation in Text-to-Image Models [28.23494821842336]
テキスト・ツー・イメージ・モデルは、安全でない作業用コンテンツ(NSFW)を生成するために騙されることがある。
我々は、テキスト・ツー・イメージ・モデルによる性的コンテンツ生成を緩和するフレームワークであるSafeGenを紹介する。
論文 参考訳(メタデータ) (2024-04-10T00:26:08Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - FLIRT: Feedback Loop In-context Red Teaming [79.63896510559357]
ブラックボックスモデルを評価し,その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。
私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文 参考訳(メタデータ) (2023-08-08T14:03:08Z) - Constructing Highly Inductive Contexts for Dialogue Safety through
Controllable Reverse Generation [65.48908724440047]
そこで本稿では,ある応答に条件付けされた逆コンテキストを構築するために,エンフレバース生成と呼ばれる手法を提案する。
我々は,Blender,DialoGPT,Plato2の3種類の事前訓練済み対話モデルをテストする。
論文 参考訳(メタデータ) (2022-12-04T12:23:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。