論文の概要: Training-Free Safe Text Embedding Guidance for Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2510.24012v1
- Date: Tue, 28 Oct 2025 02:37:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.724495
- Title: Training-Free Safe Text Embedding Guidance for Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルのための訓練不要なテキスト埋め込み指導
- Authors: Byeonghu Na, Mina Kang, Jiseok Kwak, Minsang Park, Jiwoo Shin, SeJoon Jun, Gayoung Lee, Jin-Hwa Kim, Il-Chul Moon,
- Abstract要約: 本研究では,拡散モデルの安全性を向上させるためのトレーニング不要アプローチであるセーフテキスト埋め込みガイダンス(STG)を提案する。
STGは、期待された最終識別画像に基づいて評価された安全性関数に基づいてテキスト埋め込みを調整する。
ヌード、暴力、アーティストスタイルの除去など、さまざまな安全シナリオの実験は、STGがトレーニングベースとトレーニングフリーベースラインの両方を一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 30.63803894651171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image models have recently made significant advances in generating realistic and semantically coherent images, driven by advanced diffusion models and large-scale web-crawled datasets. However, these datasets often contain inappropriate or biased content, raising concerns about the generation of harmful outputs when provided with malicious text prompts. We propose Safe Text embedding Guidance (STG), a training-free approach to improve the safety of diffusion models by guiding the text embeddings during sampling. STG adjusts the text embeddings based on a safety function evaluated on the expected final denoised image, allowing the model to generate safer outputs without additional training. Theoretically, we show that STG aligns the underlying model distribution with safety constraints, thereby achieving safer outputs while minimally affecting generation quality. Experiments on various safety scenarios, including nudity, violence, and artist-style removal, show that STG consistently outperforms both training-based and training-free baselines in removing unsafe content while preserving the core semantic intent of input prompts. Our code is available at https://github.com/aailab-kaist/STG.
- Abstract(参考訳): テキスト・ツー・イメージモデルは最近、高度な拡散モデルと大規模なWebクローリングデータセットによって駆動される、現実的でセマンティック・コヒーレントな画像の生成において大きな進歩を遂げている。
しかしながら、これらのデータセットは、しばしば不適切または偏りのあるコンテンツを含み、悪意のあるテキストプロンプトが提供されると、有害なアウトプットの発生に関する懸念を提起する。
本研究では,サンプル中のテキスト埋め込みを誘導することにより,拡散モデルの安全性を向上させるためのトレーニング不要アプローチであるセーフテキスト埋め込みガイダンス(STG)を提案する。
STGは、期待された最終識別画像に基づいて評価された安全性関数に基づいてテキスト埋め込みを調整し、追加のトレーニングなしでより安全な出力を生成することができる。
理論的には、STGはモデル分布と安全性の制約を一致させ、生成品質を最小限に抑えつつ、より安全な出力を達成することを示す。
ヌード、暴力、アーティストスタイルの削除を含む様々な安全シナリオの実験では、STGは、入力プロンプトのコアセマンティックインテントを保ちながら、安全でないコンテンツを除去するトレーニングベースラインとトレーニングなしベースラインの両方を一貫して上回っている。
私たちのコードはhttps://github.com/aailab-kaist/STG.comで公開されています。
関連論文リスト
- SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models [74.11062256255387]
テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。
SafeGuiderは, 生成品質を損なうことなく, 堅牢な安全制御を実現するための2段階のフレームワークである。
SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
論文 参考訳(メタデータ) (2025-10-05T10:24:48Z) - PromptSafe: Gated Prompt Tuning for Safe Text-to-Image Generation [30.2092299298228]
テキスト・ツー・イメージ(T2I)モデルは、暴力的または明示的なイメージなど、安全でない作業用コンテンツ(NSFW)の生成に脆弱である。
本稿では,軽量でテキストのみを教師付きソフト埋め込みと,推論時間付きゲート制御ネットワークを組み合わせたゲートプロンプトチューニングフレームワークであるPromptSafeを提案する。
PromptSafeはSOTAの安全でない生成率(2.36%)を達成し,高い良性を維持していることを示す。
論文 参考訳(メタデータ) (2025-08-02T09:09:40Z) - SC-Pro: Training-Free Framework for Defending Unsafe Image Synthesis Attack [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。
NSFW画像を生成する敵攻撃に対して容易に防御できる訓練不要のフレームワークであるSC-Proを提案する。
論文 参考訳(メタデータ) (2025-01-09T16:43:21Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。
我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。
安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - Safe Text-to-Image Generation: Simply Sanitize the Prompt Embedding [16.188657772178747]
本研究では,不適切な概念を迅速に埋め込むことで,テキスト・ツー・イメージモデルの安全性を高めるEmbeded Sanitizer (ES)を提案する。
ESは、その潜在的な有害性を示すプロンプトにおいて各トークンにスコアを割り当てる最初の解釈可能な安全な生成フレームワークである。
論文 参考訳(メタデータ) (2024-11-15T16:29:02Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - SafeGen: Mitigating Sexually Explicit Content Generation in Text-to-Image Models [28.23494821842336]
テキスト・ツー・イメージ・モデルは、安全でない作業用コンテンツ(NSFW)を生成するために騙されることがある。
我々は、テキスト・ツー・イメージ・モデルによる性的コンテンツ生成を緩和するフレームワークであるSafeGenを紹介する。
論文 参考訳(メタデータ) (2024-04-10T00:26:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。