論文の概要: Inference-Only Prompt Projection for Safe Text-to-Image Generation with TV Guarantees
- arxiv url: http://arxiv.org/abs/2602.00616v1
- Date: Sat, 31 Jan 2026 09:09:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.289526
- Title: Inference-Only Prompt Projection for Safe Text-to-Image Generation with TV Guarantees
- Title(参考訳): テレビ保証者による安全なテキスト・画像生成のための推論専用プロンプトプロジェクション
- Authors: Minhyuk Lee, Hyekyung Yoon, Myungjoo Kang,
- Abstract要約: テキスト・トゥ・イメージ(T2I)拡散モデルは高品質なオープン・エンド・シンセサイザーを可能にするが、実際の展開では、良質な即時アライメントを低下させることなく、安全でない世代を抑えるセーフガードが必要である。
基準条件分布が固定されると、安全でない世代における非自明な減少は、基準からテレビの偏差を必然的に引き起こす。
本稿では,高リスクプロンプトに選択的に介入する推論専用プロンプトプロジェクションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.642850335491817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Image (T2I) diffusion models enable high-quality open-ended synthesis, but their real-world deployment demands safeguards that suppress unsafe generations without degrading benign prompt-image alignment. We formalize this tension through a total variation (TV) lens: once the reference conditional distribution is fixed, any nontrivial reduction in unsafe generations necessarily incurs TV deviation from the reference, yielding a principled Safety-Prompt Alignment Trade-off (SPAT). Guided by this view, we propose an inference-only prompt projection framework that selectively intervenes on high-risk prompts via a surrogate objective with verification, mapping them into a tolerance-controlled safe set while leaving benign prompts effectively unchanged, without retraining or fine-tuning the generator. Across four datasets and three diffusion backbones, our approach achieves 16.7-60.0% relative reductions in inappropriate percentage (IP) versus strong model-level alignment baselines, while preserving benign prompt-image alignment on COCO near the unaligned reference.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)拡散モデルは高品質なオープン・エンド・シンセサイザーを可能にするが、実際の展開では、良質な即時アライメントを低下させることなく、安全でない世代を抑えるセーフガードが必要である。
基準条件分布が固定されると、安全でない世代を非自明に減少させることで、基準値からテレビの偏差を生じさせ、原則化された安全プロンプトアライメントトレードオフ(SPAT)をもたらす。
そこで本研究では,高リスクプロンプトに選択的に介入する推論専用プロンプトプロジェクションフレームワークを提案する。このフレームワークは,高リスクプロンプトを検証対象として選択的に介入し,ベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグナグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグナグニグニグニグニグニグニグニグニグナグニグニグナグナグニグナグニグニグナグニグナグニグナグナグニグニグニグナグニグニグニグニグニグニグニグナ
4つのデータセットと3つの拡散バックボーンにまたがって,不適切なパーセンテージ(IP)と強いモデルレベルのアライメントベースラインを相対的に16.7-60.0%削減し,不整合基準付近でCOCOに良質な即時アライメントを保った。
関連論文リスト
- SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - SPQR: A Standardized Benchmark for Modern Safety Alignment Methods in Text-to-Image Diffusion Models [30.264600432509415]
SPQRは、安全に整合した拡散モデルが良質な微調整の下でいかに安全性、実用性、堅牢性を維持するかを評価するための単一のスコア付き計量である。
我々は,多言語・ドメイン固有・アウト・オブ・ディストリビューション分析とカテゴリー別分解を行い,良質な微調整後に安全アライメントが失敗するかどうかを識別する。
論文 参考訳(メタデータ) (2025-11-24T14:46:20Z) - SafeR-CLIP: Mitigating NSFW Content in Vision-Language Models While Preserving Pre-Trained Knowledge [51.634837361795434]
SaFeR-CLIPは安全性と性能を調整し、以前の方法に比べて最大8.0%のゼロショット精度を回復する。
NSFW-Capsは、分散シフト下での安全性をテストするために、1000の高度に整合したペアの新しいベンチマークである。
論文 参考訳(メタデータ) (2025-11-20T19:00:15Z) - SP-Guard: Selective Prompt-adaptive Guidance for Safe Text-to-Image Generation [21.845417608250035]
拡散ベースのT2Iモデルは、優れた画像生成品質を達成した。
また、有害なコンテンツを容易に作成できる。
また,SP-Guard法は,これらの制約に対処し,迅速な有害性を推定し,選択的誘導マスクを適用した。
論文 参考訳(メタデータ) (2025-11-14T07:04:06Z) - Enhancing CLIP Robustness via Cross-Modality Alignment [54.01929554563447]
視覚言語モデルのための最適なトランスポートベースフレームワークであるクロスモダリティアライメントを提案する。
COLAは、グローバルな画像テキストアライメントと特徴空間における局所的な構造的一貫性を復元する。
COLAはトレーニングフリーで、既存の微調整モデルと互換性がある。
論文 参考訳(メタデータ) (2025-10-28T03:47:44Z) - DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models [59.45605332033458]
安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。
既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。
この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
論文 参考訳(メタデータ) (2025-10-12T23:21:34Z) - SafeCtrl: Region-Based Safety Control for Text-to-Image Diffusion via Detect-Then-Suppress [48.20360860166279]
SafeCtrlは軽量で非侵襲的なプラグインで、まず安全でないコンテンツを正確にローカライズします。
強硬なA-to-B置換を行う代わりに、SafeCtrlは有害なセマンティクスを抑える。
論文 参考訳(メタデータ) (2025-08-16T04:28:52Z) - PromptSafe: Gated Prompt Tuning for Safe Text-to-Image Generation [30.2092299298228]
テキスト・ツー・イメージ(T2I)モデルは、暴力的または明示的なイメージなど、安全でない作業用コンテンツ(NSFW)の生成に脆弱である。
本稿では,軽量でテキストのみを教師付きソフト埋め込みと,推論時間付きゲート制御ネットワークを組み合わせたゲートプロンプトチューニングフレームワークであるPromptSafeを提案する。
PromptSafeはSOTAの安全でない生成率(2.36%)を達成し,高い良性を維持していることを示す。
論文 参考訳(メタデータ) (2025-08-02T09:09:40Z) - Rebalancing Contrastive Alignment with Bottlenecked Semantic Increments in Text-Video Retrieval [48.85977777168096]
Gap-Aware Retrievalフレームワークは、テキスト$t_i$とビデオ$v_j$の間で、学習可能なペア固有のインクリメント$Delta_ij$を導入している。
セマンティックギャップに条件付けされた軽量なニューラルモジュールは、構造認識の修正のためにバッチ間で増分する。
4つのベンチマークの実験は、GAREが一貫してアライメント精度とロバスト性を改善することを示した。
論文 参考訳(メタデータ) (2025-05-18T17:18:06Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。