論文の概要: Safe Text-to-Image Generation: Simply Sanitize the Prompt Embedding
- arxiv url: http://arxiv.org/abs/2411.10329v2
- Date: Tue, 15 Apr 2025 12:26:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:08:47.422117
- Title: Safe Text-to-Image Generation: Simply Sanitize the Prompt Embedding
- Title(参考訳): 安全なテキスト・ツー・イメージ・ジェネレーション:簡単にプロンプト・エンベディングを消毒する
- Authors: Huming Qiu, Guanxu Chen, Mi Zhang, Xiaohan Zhang, Xiaoyu You, Min Yang,
- Abstract要約: 本研究では,不適切な概念を迅速に埋め込むことで,テキスト・ツー・イメージモデルの安全性を高めるEmbeded Sanitizer (ES)を提案する。
ESは、その潜在的な有害性を示すプロンプトにおいて各トークンにスコアを割り当てる最初の解釈可能な安全な生成フレームワークである。
- 参考スコア(独自算出の注目度): 16.188657772178747
- License:
- Abstract: In recent years, text-to-image (T2I) generation models have made significant progress in generating high-quality images that align with text descriptions. However, these models also face the risk of unsafe generation, potentially producing harmful content that violates usage policies, such as explicit material. Existing safe generation methods typically focus on suppressing inappropriate content by erasing undesired concepts from visual representations, while neglecting to sanitize the textual representation. Although these methods help mitigate the risk of misuse to some extent, their robustness remains insufficient when dealing with adversarial attacks. Given that semantic consistency between input text and output image is a core requirement of T2I models, we identify that textual representations are likely the primary source of unsafe generation. To this end, we propose Embedding Sanitizer (ES), which enhances the safety of T2I models by sanitizing inappropriate concepts in prompt embeddings. To our knowledge, ES is the first interpretable safe generation framework that assigns a score to each token in the prompt to indicate its potential harmfulness. In addition, ES adopts a plug-and-play modular design, offering compatibility for seamless integration with various T2I models and other safeguards. Evaluations on five prompt benchmarks show that ES outperforms eleven existing safeguard baselines, achieving state-of-the-art robustness while maintaining high-quality image generation.
- Abstract(参考訳): 近年,テキスト・ツー・イメージ(T2I)生成モデルは,テキスト記述と整合した高品質な画像の生成において大きな進歩を遂げている。
しかし、これらのモデルはまた、安全でない生成のリスクに直面し、明示的な材料のような使用ポリシーに違反した有害なコンテンツを生成する可能性がある。
既存の安全な生成手法は、典型的には、望ましくない概念を視覚的表現から排除し、テキスト表現を衛生化するのを無視することで、不適切なコンテンツを抑制することに重点を置いている。
これらの手法は、ある程度の誤用リスクを軽減するのに役立つが、敵の攻撃に対処する際には、その堅牢性は依然として不十分である。
入力テキストと出力画像のセマンティック一貫性がT2Iモデルのコア要件であることを考えると、テキスト表現が安全でない生成の主要な原因である可能性が高い。
そこで本研究では,T2Iモデルの安全性を高めるため,迅速な埋め込みにおいて不適切な概念を衛生化するEmbedding Sanitizer (ES)を提案する。
我々の知る限り、ESは、その潜在的な有害性を示すプロンプトにおいて各トークンにスコアを割り当てる最初の解釈可能な安全な生成フレームワークである。
さらに、ESはプラグイン・アンド・プレイのモジュールデザインを採用し、様々なT2Iモデルとシームレスに統合するための互換性を提供する。
5つのプロンプトベンチマークの評価によると、ESは11の既存のセーフガードベースラインを上回り、高品質な画像生成を維持しながら最先端の堅牢性を達成している。
関連論文リスト
- Safeguarding Text-to-Image Generation via Inference-Time Prompt-Noise Optimization [29.378296359782585]
テキスト・ツー・イメージ(T2I)拡散モデルはテキスト・プロンプトに基づいて高品質で多様な画像を生成する能力で広く認識されている。
T2Iモデルの不適切な画像生成を防ぐための現在の取り組みは、バイパスが容易であり、敵の攻撃に対して脆弱である。
本稿では,PNO(Prompt-Noise Optimization)と呼ばれる,安全でない画像生成を緩和する新しい学習不要手法を提案する。
論文 参考訳(メタデータ) (2024-12-05T05:12:30Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [49.60774626839712]
マルチモーダル生成モデルのトレーニングは、ユーザを有害で安全でない、議論の余地のない、あるいは文化的に不適切なアウトプットに晒すことができる。
安全コンテクストの埋め込みと、より安全な画像を生成するための二重再構成プロセスを活用するモジュール型動的ソリューションを提案する。
我々は、モデル安全性の制御可能なバリエーションを提供しながら、安全な画像生成ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation [65.30207993362595]
安全な生成のための学習/編集に基づく手法は、モデルから有害な概念を取り除くが、いくつかの課題に直面している。
安全なT2IとT2VのためのトレーニングフリーアプローチであるSAFREEを提案する。
テキスト埋め込み空間における有毒な概念の集合に対応する部分空間を検出し、この部分空間から直ちに埋め込みを行う。
論文 参考訳(メタデータ) (2024-10-16T17:32:23Z) - ShieldDiff: Suppressing Sexual Content Generation from Diffusion Models through Reinforcement Learning [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは、不快な内容の安全でない画像を生成する可能性がある。
我々の研究では、T2IモデルからNSFW(職場では安全ではない)コンテンツ生成を排除することに重点を置いています。
本稿では,CLIP(Contrastive Language- Image Pre-Trening)とヌード報酬(nudity rewards)から構成される独自の報酬関数を提案する。
論文 参考訳(メタデータ) (2024-10-04T19:37:56Z) - Direct Unlearning Optimization for Robust and Safe Text-to-Image Models [29.866192834825572]
モデルが潜在的に有害なコンテンツを生成する能力を取り除くために、未学習の技術が開発されている。
これらの手法は敵の攻撃によって容易に回避され、生成した画像の安全性を確保するには信頼性が低い。
T2IモデルからNot Safe For Work(NSFW)コンテンツを除去するための新しいフレームワークであるDirect Unlearning Optimization (DUO)を提案する。
論文 参考訳(メタデータ) (2024-07-17T08:19:11Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - SafeGen: Mitigating Sexually Explicit Content Generation in Text-to-Image Models [28.23494821842336]
テキスト・ツー・イメージ・モデルは、安全でない作業用コンテンツ(NSFW)を生成するために騙されることがある。
我々は、テキスト・ツー・イメージ・モデルによる性的コンテンツ生成を緩和するフレームワークであるSafeGenを紹介する。
論文 参考訳(メタデータ) (2024-04-10T00:26:08Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - Constructing Highly Inductive Contexts for Dialogue Safety through
Controllable Reverse Generation [65.48908724440047]
そこで本稿では,ある応答に条件付けされた逆コンテキストを構築するために,エンフレバース生成と呼ばれる手法を提案する。
我々は,Blender,DialoGPT,Plato2の3種類の事前訓練済み対話モデルをテストする。
論文 参考訳(メタデータ) (2022-12-04T12:23:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。