論文の概要: SafeEditor: Unified MLLM for Efficient Post-hoc T2I Safety Editing
- arxiv url: http://arxiv.org/abs/2510.24820v1
- Date: Tue, 28 Oct 2025 15:12:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.599222
- Title: SafeEditor: Unified MLLM for Efficient Post-hoc T2I Safety Editing
- Title(参考訳): 安全な編集ツール:効率的なポストホックT2I安全編集のための統一MLLM
- Authors: Ruiyang Zhang, Jiahao Luo, Xiaoru Feng, Qiufan Pang, Yaodong Yang, Juntao Dai,
- Abstract要約: モデルに依存しないプラグイン・アンド・プレイモジュールとして機能するマルチラウンド安全編集フレームワークを提案する。
我々は、安全でないコンテンツを識別・精錬する人間の認知過程を反映した、ポストホックな安全編集パラダイムを導入する。
生成した画像に対して複数ラウンドの安全編集が可能な統合MLLMであるSafeEditorを開発した。
- 参考スコア(独自算出の注目度): 13.35302137193851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of text-to-image (T2I) models, ensuring their safety has become increasingly critical. Existing safety approaches can be categorized into training-time and inference-time methods. While inference-time methods are widely adopted due to their cost-effectiveness, they often suffer from limitations such as over-refusal and imbalance between safety and utility. To address these challenges, we propose a multi-round safety editing framework that functions as a model-agnostic, plug-and-play module, enabling efficient safety alignment for any text-to-image model. Central to this framework is MR-SafeEdit, a multi-round image-text interleaved dataset specifically constructed for safety editing in text-to-image generation. We introduce a post-hoc safety editing paradigm that mirrors the human cognitive process of identifying and refining unsafe content. To instantiate this paradigm, we develop SafeEditor, a unified MLLM capable of multi-round safety editing on generated images. Experimental results show that SafeEditor surpasses prior safety approaches by reducing over-refusal while achieving a more favorable safety-utility balance.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルの急速な進歩により、安全性の確保がますます重要になっている。
既存の安全アプローチは、トレーニング時間と推論時間に分類することができる。
推論時間法はコスト効率のため広く採用されているが、しばしば過度な拒絶や安全性と実用性の不均衡といった制限に悩まされる。
これらの課題に対処するため、我々は、モデルに依存しないプラグイン・アンド・プレイモジュールとして機能し、テキスト・ツー・イメージモデルに対して効率的な安全アライメントを可能にするマルチラウンド安全編集フレームワークを提案する。
このフレームワークの中心にあるMR-SafeEditは、マルチラウンドの画像テキストインターリーブ付きデータセットで、テキストから画像生成までの安全編集のために構築されている。
我々は、安全でないコンテンツを識別・精錬する人間の認知過程を反映した、ポストホックな安全編集パラダイムを導入する。
このパラダイムをインスタンス化するために、生成された画像に対して複数ラウンドの安全編集が可能な統合MLLMであるSafeEditorを開発した。
実験の結果,SafeEditorは,より良好な安全性・ユーティリティバランスを達成しつつ,過度な拒絶を減らし,従来の安全アプローチを超越していることがわかった。
関連論文リスト
- SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models [74.11062256255387]
テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。
SafeGuiderは, 生成品質を損なうことなく, 堅牢な安全制御を実現するための2段階のフレームワークである。
SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
論文 参考訳(メタデータ) (2025-10-05T10:24:48Z) - PromptSafe: Gated Prompt Tuning for Safe Text-to-Image Generation [30.2092299298228]
テキスト・ツー・イメージ(T2I)モデルは、暴力的または明示的なイメージなど、安全でない作業用コンテンツ(NSFW)の生成に脆弱である。
本稿では,軽量でテキストのみを教師付きソフト埋め込みと,推論時間付きゲート制御ネットワークを組み合わせたゲートプロンプトチューニングフレームワークであるPromptSafeを提案する。
PromptSafeはSOTAの安全でない生成率(2.36%)を達成し,高い良性を維持していることを示す。
論文 参考訳(メタデータ) (2025-08-02T09:09:40Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。
我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。
安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations [19.132597762214722]
現在のアライメント手法は、動的なユーザ意図と複雑な目的に苦しむ。
異なるシナリオにおける安全性を向上させるトレーニングフリーフレームワークであるSafety Arithmeticを提案する。
実験の結果,安全算術は安全対策を大幅に改善し,過度な安全性を低減し,モデルの有用性を維持できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T17:48:13Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。