論文の概要: DTVI: Dual-Stage Textual and Visual Intervention for Safe Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2603.22041v2
- Date: Sun, 29 Mar 2026 04:28:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 13:48:18.782674
- Title: DTVI: Dual-Stage Textual and Visual Intervention for Safe Text-to-Image Generation
- Title(参考訳): DTVI:安全なテキスト・画像生成のためのデュアルステージテキストとビジュアルインターベンション
- Authors: Binhong Tan, Zhaoxin Wang, Handing Wang,
- Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデルは、強力な生成能力を示すが、安全でないコンテンツを生成する可能性には、重大な安全上の懸念が生じる。
我々は,安全なT2I生成のための2段階推論時防衛フレームワークDTVIを提案する。
- 参考スコア(独自算出の注目度): 10.071877020102557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Image (T2I) diffusion models have demonstrated strong generation ability, but their potential to generate unsafe content raises significant safety concerns. Existing inference-time defense methods typically perform category-agnostic token-level intervention in the text embedding space, which fails to capture malicious semantics distributed across the full token sequence and remains vulnerable to adversarial prompts. In this paper, we propose DTVI, a dual-stage inference-time defense framework for safe T2I generation. Unlike existing methods that intervene on specific token embeddings, our method introduces category-aware sequence-level intervention on the full prompt embedding to better capture distributed malicious semantics, and further attenuates the remaining unsafe influences during the visual generation stage. Experimental results on real-world unsafe prompts, adversarial prompts, and multiple harmful categories show that our method achieves effective and robust defense while preserving reasonable generation quality on benign prompts, obtaining an average Defense Success Rate (DSR) of 94.43% across sexual-category benchmarks and 88.56 across seven unsafe categories, while maintaining generation quality on benign prompts.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルは、強力な生成能力を示すが、安全でないコンテンツを生成する可能性には、重大な安全上の懸念が生じる。
既存の推論時防御法は、通常、テキスト埋め込み空間においてカテゴリに依存しないトークンレベルの介入を行うが、これは完全なトークンシーケンスに分散され、敵のプロンプトに弱いままである悪意のあるセマンティクスをキャプチャするのに失敗する。
本稿では,安全なT2I生成のための2段階推論時防衛フレームワークDTVIを提案する。
特定のトークンの埋め込みに介入する既存の方法とは異なり、本手法では、完全なプロンプト埋め込みに対するカテゴリ認識シーケンスレベルの介入を導入し、分散された悪意のあるセマンティクスをよりよくキャプチャし、さらに視覚生成段階における残りの安全でない影響を緩和する。
実世界の安全でないプロンプト,敵対的プロンプト,および有害なカテゴリに対する実験結果から,本手法は良心的なプロンプトの適切な生成品質を維持しつつ,有効かつ堅牢な防御を実現し,セクシュアルカテゴリーのベンチマークで94.43%,安全でない7つのカテゴリで88.56の防衛成功率(DSR)を得ることができた。
関連論文リスト
- When Safety Collides: Resolving Multi-Category Harmful Conflicts in Text-to-Image Diffusion via Adaptive Safety Guidance [79.1968671824977]
テキスト・ツー・イメージ(T2I)拡散モデルは高品質な画像を生成する上で大きな進歩を見せている。
本研究では,適応型安全誘導(CASG)を動的に識別・適用する学習自由フレームワークとして,適応型安全誘導(CASG)を提案する。
T2Iの安全性ベンチマークの実験では、CASGの最先端性能が実証され、既存の方法と比較して有害率が最大15.4%低下した。
論文 参考訳(メタデータ) (2026-02-24T13:20:31Z) - SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models [74.11062256255387]
テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。
SafeGuiderは, 生成品質を損なうことなく, 堅牢な安全制御を実現するための2段階のフレームワークである。
SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
論文 参考訳(メタデータ) (2025-10-05T10:24:48Z) - PromptSafe: Gated Prompt Tuning for Safe Text-to-Image Generation [30.2092299298228]
テキスト・ツー・イメージ(T2I)モデルは、暴力的または明示的なイメージなど、安全でない作業用コンテンツ(NSFW)の生成に脆弱である。
本稿では,軽量でテキストのみを教師付きソフト埋め込みと,推論時間付きゲート制御ネットワークを組み合わせたゲートプロンプトチューニングフレームワークであるPromptSafeを提案する。
PromptSafeはSOTAの安全でない生成率(2.36%)を達成し,高い良性を維持していることを示す。
論文 参考訳(メタデータ) (2025-08-02T09:09:40Z) - Safe Text-to-Image Generation: Simply Sanitize the Prompt Embedding [16.188657772178747]
本研究では,不適切な概念を迅速に埋め込むことで,テキスト・ツー・イメージモデルの安全性を高めるEmbeded Sanitizer (ES)を提案する。
ESは、その潜在的な有害性を示すプロンプトにおいて各トークンにスコアを割り当てる最初の解釈可能な安全な生成フレームワークである。
論文 参考訳(メタデータ) (2024-11-15T16:29:02Z) - ETA: Evaluating Then Aligning Safety of Vision Language Models at Inference Time [12.160713548659457]
対向的な視覚入力は、容易にVLM防御機構をバイパスすることができる。
本稿では,入力された視覚的内容と出力応答を評価する2相推論時間アライメントフレームワークを提案する。
実験の結果, ETAは無害性, 有用性, 効率の点で, ベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-09T07:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。