論文の概要: Value-Aligned Prompt Moderation via Zero-Shot Agentic Rewriting for Safe Image Generation
- arxiv url: http://arxiv.org/abs/2511.11693v1
- Date: Wed, 12 Nov 2025 09:52:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.004827
- Title: Value-Aligned Prompt Moderation via Zero-Shot Agentic Rewriting for Safe Image Generation
- Title(参考訳): 安全な画像生成のためのゼロショットエージェント書き換えによる値調整型プロンプトモデレーション
- Authors: Xin Zhao, Xiaojun Chen, Bingshan Liu, Zeyao Liu, Zhendong Zhao, Xiaoyan Gu,
- Abstract要約: 現在の防衛は、生産物を生産品質を犠牲にしたり、高いコストを発生させることなく、人的価値と整合させるのに苦労している。
我々は、より安全でより有用なテキスト・ツー・イメージ・ジェネレーションのためのゼロショットエージェント・フレームワークであるVALORを紹介した。
VALORは、階層化されたプロンプト分析とヒューマンアラインな値推論を統合している。
- 参考スコア(独自算出の注目度): 11.663809872664103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative vision-language models like Stable Diffusion demonstrate remarkable capabilities in creative media synthesis, but they also pose substantial risks of producing unsafe, offensive, or culturally inappropriate content when prompted adversarially. Current defenses struggle to align outputs with human values without sacrificing generation quality or incurring high costs. To address these challenges, we introduce VALOR (Value-Aligned LLM-Overseen Rewriter), a modular, zero-shot agentic framework for safer and more helpful text-to-image generation. VALOR integrates layered prompt analysis with human-aligned value reasoning: a multi-level NSFW detector filters lexical and semantic risks; a cultural value alignment module identifies violations of social norms, legality, and representational ethics; and an intention disambiguator detects subtle or indirect unsafe implications. When unsafe content is detected, prompts are selectively rewritten by a large language model under dynamic, role-specific instructions designed to preserve user intent while enforcing alignment. If the generated image still fails a safety check, VALOR optionally performs a stylistic regeneration to steer the output toward a safer visual domain without altering core semantics. Experiments across adversarial, ambiguous, and value-sensitive prompts show that VALOR significantly reduces unsafe outputs by up to 100.00% while preserving prompt usefulness and creativity. These results highlight VALOR as a scalable and effective approach for deploying safe, aligned, and helpful image generation systems in open-world settings.
- Abstract(参考訳): 安定拡散(Stable Diffusion)のような生成的視覚言語モデルは、創造的なメディア合成において顕著な能力を示すが、敵対的に刺激されたときに、安全でない、攻撃的、あるいは文化的に不適切なコンテンツを生み出すという重大なリスクを生じさせる。
現在の防衛は、生産物を生産品質を犠牲にしたり、高いコストを発生させることなく、人的価値と整合させるのに苦労している。
これらの課題に対処するために、より安全で便利なテキスト・ツー・イメージ生成のためのモジュラー・ゼロショット・エージェント・フレームワークであるVALOR(Value-Aligned LLM-Overseen Rewriter)を導入する。
多段階のNSFW検出器は語彙的および意味的リスクをフィルタし、文化的価値アライメントモジュールは社会的規範、合法性、表現倫理の違反を識別し、意図的曖昧さは微妙または間接的な不安全な含意を検出する。
安全でないコンテンツが検出されると、プロンプトは動的に動的に大きな言語モデルによって選択的に書き換えられる。
生成したイメージが安全チェックに失敗した場合、VALORはオプションでスタイリスティックなリジェネレーションを実行して、コアセマンティクスを変更することなく、より安全な視覚領域に向けて出力をステアリングする。
敵対的、曖昧で、価値に敏感なプロンプトに対する実験は、VALORが迅速な有用性と創造性を保ちながら、安全でない出力を最大100.00%減少させることを示している。
これらの結果は、VALORを、安全で整合性があり、有用な画像生成システムをオープンな環境にデプロイするための、スケーラブルで効果的なアプローチとして強調している。
関連論文リスト
- SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models [74.11062256255387]
テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。
SafeGuiderは, 生成品質を損なうことなく, 堅牢な安全制御を実現するための2段階のフレームワークである。
SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
論文 参考訳(メタデータ) (2025-10-05T10:24:48Z) - SafeCtrl: Region-Based Safety Control for Text-to-Image Diffusion via Detect-Then-Suppress [48.20360860166279]
SafeCtrlは軽量で非侵襲的なプラグインで、まず安全でないコンテンツを正確にローカライズします。
強硬なA-to-B置換を行う代わりに、SafeCtrlは有害なセマンティクスを抑える。
論文 参考訳(メタデータ) (2025-08-16T04:28:52Z) - PromptSafe: Gated Prompt Tuning for Safe Text-to-Image Generation [30.2092299298228]
テキスト・ツー・イメージ(T2I)モデルは、暴力的または明示的なイメージなど、安全でない作業用コンテンツ(NSFW)の生成に脆弱である。
本稿では,軽量でテキストのみを教師付きソフト埋め込みと,推論時間付きゲート制御ネットワークを組み合わせたゲートプロンプトチューニングフレームワークであるPromptSafeを提案する。
PromptSafeはSOTAの安全でない生成率(2.36%)を達成し,高い良性を維持していることを示す。
論文 参考訳(メタデータ) (2025-08-02T09:09:40Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。
我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。
安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。