論文の概要: SafeText: Safe Text-to-image Models via Aligning the Text Encoder
- arxiv url: http://arxiv.org/abs/2502.20623v1
- Date: Fri, 28 Feb 2025 01:02:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:42:49.856982
- Title: SafeText: Safe Text-to-image Models via Aligning the Text Encoder
- Title(参考訳): SafeText: テキストエンコーダのアライメントによる安全なテキスト・ツー・イメージモデル
- Authors: Yuepeng Hu, Zhengyuan Jiang, Neil Zhenqiang Gong,
- Abstract要約: テキスト・ツー・イメージモデルは、安全でないプロンプトが提示されたときに有害な画像を生成することができる。
拡散モジュールではなくテキストエンコーダを微調整する新しいアライメント手法であるSafeTextを提案する。
以上の結果から,SafeTextは画像に小さな影響を与えない有害な画像生成を効果的に防止し,安全なプロンプトを可能にすることが示唆された。
- 参考スコア(独自算出の注目度): 38.14026164194725
- License:
- Abstract: Text-to-image models can generate harmful images when presented with unsafe prompts, posing significant safety and societal risks. Alignment methods aim to modify these models to ensure they generate only non-harmful images, even when exposed to unsafe prompts. A typical text-to-image model comprises two main components: 1) a text encoder and 2) a diffusion module. Existing alignment methods mainly focus on modifying the diffusion module to prevent harmful image generation. However, this often significantly impacts the model's behavior for safe prompts, causing substantial quality degradation of generated images. In this work, we propose SafeText, a novel alignment method that fine-tunes the text encoder rather than the diffusion module. By adjusting the text encoder, SafeText significantly alters the embedding vectors for unsafe prompts, while minimally affecting those for safe prompts. As a result, the diffusion module generates non-harmful images for unsafe prompts while preserving the quality of images for safe prompts. We evaluate SafeText on multiple datasets of safe and unsafe prompts, including those generated through jailbreak attacks. Our results show that SafeText effectively prevents harmful image generation with minor impact on the images for safe prompts, and SafeText outperforms six existing alignment methods. We will publish our code and data after paper acceptance.
- Abstract(参考訳): テキスト・ツー・イメージモデルは、安全でないプロンプトが提示されたときに有害な画像を生成し、重大な安全性と社会的リスクを生じさせる。
アライメント手法は、安全でないプロンプトに晒されても、害のない画像のみを生成するためにこれらのモデルを変更することを目的としている。
典型的なテキスト・ツー・イメージ・モデルは2つの主要コンポーネントから構成される。
1)テキストエンコーダ及び
2)拡散モジュール。
既存のアライメント手法は主に、有害な画像生成を防ぐための拡散モジュールの変更に焦点を当てている。
しかし、これはしばしば安全なプロンプトのためのモデルの振る舞いに大きな影響を与え、生成された画像の実質的な品質劣化を引き起こす。
本研究では,拡散モジュールではなくテキストエンコーダを微調整する新しいアライメント手法であるSafeTextを提案する。
テキストエンコーダを調整することで、SafeTextは安全でないプロンプトに対して埋め込みベクターを著しく変更すると同時に、安全なプロンプトに対しては最小限の影響を受ける。
その結果、拡散モジュールは、安全なプロンプトのために画像の品質を保ちながら、安全でないプロンプトに対して有害な画像を生成する。
セーフテキストを複数の安全なプロンプトと安全でないプロンプトのデータセットで評価する。
以上の結果から,SafeTextは画像に悪影響を及ぼすことなく画像生成を効果的に防止し,SafeTextは既存のアライメント手法を6つ上回る結果となった。
論文の受理後、コードとデータを公開します。
関連論文リスト
- Distorting Embedding Space for Safety: A Defense Mechanism for Adversarially Robust Diffusion Models [4.5656369638728656]
Distorting Embedding Space (DES) はテキストエンコーダベースの防御機構である。
DESは、アンセーフプロンプトを用いてテキストエンコーダから抽出されたアンセーフな埋め込みを、慎重に計算された安全な埋め込み領域に変換する。
DESはまた、敵攻撃に対する堅牢性を高めるために、中立的な埋め込みと整列することで、即時ヌードを用いて抽出されたヌード埋め込みを中和する。
論文 参考訳(メタデータ) (2025-01-31T04:14:05Z) - PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models [34.81551119810424]
テキスト・ツー・イメージ(T2I)モデルは、特にNSFW(not-safe-for-work)コンテンツの生成において、誤用に対して脆弱であることが示されている。
本稿では,大規模言語モデル(LLM)におけるシステムプロンプト機構からインスピレーションを得る新しいコンテンツモデレーション手法であるPromptGuardを提案する。
論文 参考訳(メタデータ) (2025-01-07T05:39:21Z) - Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。
本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。
本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文 参考訳(メタデータ) (2024-11-30T04:37:38Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [49.60774626839712]
マルチモーダル生成モデルのトレーニングは、ユーザを有害で安全でない、議論の余地のない、あるいは文化的に不適切なアウトプットに晒すことができる。
安全コンテクストの埋め込みと、より安全な画像を生成するための二重再構成プロセスを活用するモジュール型動的ソリューションを提案する。
我々は、モデル安全性の制御可能なバリエーションを提供しながら、安全な画像生成ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - Universal Prompt Optimizer for Safe Text-to-Image Generation [27.32589928097192]
ブラックボックスシナリオにおける安全なT2I(POSI)生成のための最初の普遍的プロンプトを提案する。
提案手法は,不適切な画像を生成する際の様々なT2Iモデルの可能性を効果的に低減することができる。
論文 参考訳(メタデータ) (2024-02-16T18:36:36Z) - Image Safeguarding: Reasoning with Conditional Vision Language Model and
Obfuscating Unsafe Content Counterfactually [3.69611312621848]
ソーシャルメディアプラットフォームは、性的行為を描写した画像など、悪意あるアクターが安全でないコンテンツを共有するためにますます利用されている。
主要なプラットフォームでは、人工知能(AI)と人間のモデレーションを使用して、そのような画像を難読化してより安全なものにしている。
難読化画像の2つの重要なニーズは、難読化画像領域の正確な根拠を提供する必要があることである。
論文 参考訳(メタデータ) (2024-01-19T21:38:18Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - Rickrolling the Artist: Injecting Backdoors into Text Encoders for
Text-to-Image Synthesis [16.421253324649555]
テキスト誘導生成モデルに対するバックドアアタックを導入する。
我々の攻撃はエンコーダをわずかに変更するだけで、クリーンなプロンプトで画像生成に不審なモデル動作が明らかになることはない。
論文 参考訳(メタデータ) (2022-11-04T12:36:36Z) - SafeText: A Benchmark for Exploring Physical Safety in Language Models [62.810902375154136]
テキスト生成およびコモンセンス推論タスク用に設計された各種モデルのコモンセンス物理安全性について検討する。
最先端の大規模言語モデルは、安全でないテキストの生成に影響を受けやすく、安全でないアドバイスを拒否するのが困難であることがわかった。
論文 参考訳(メタデータ) (2022-10-18T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。