論文の概要: SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models
- arxiv url: http://arxiv.org/abs/2601.08623v1
- Date: Tue, 13 Jan 2026 15:01:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.248878
- Title: SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models
- Title(参考訳): SafeRedir: 画像生成モデルにおけるロバストな未学習のためのプロンプト埋め込みリダイレクト
- Authors: Renyang Liu, Kangjie Chen, Han Qiu, Jie Zhang, Kwok-Yan Lam, Tianwei Zhang, See-Kiong Ng,
- Abstract要約: 我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
- 参考スコア(独自算出の注目度): 67.84174763413178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image generation models (IGMs), while capable of producing impressive and creative content, often memorize a wide range of undesirable concepts from their training data, leading to the reproduction of unsafe content such as NSFW imagery and copyrighted artistic styles. Such behaviors pose persistent safety and compliance risks in real-world deployments and cannot be reliably mitigated by post-hoc filtering, owing to the limited robustness of such mechanisms and a lack of fine-grained semantic control. Recent unlearning methods seek to erase harmful concepts at the model level, which exhibit the limitations of requiring costly retraining, degrading the quality of benign generations, or failing to withstand prompt paraphrasing and adversarial attacks. To address these challenges, we introduce SafeRedir, a lightweight inference-time framework for robust unlearning via prompt embedding redirection. Without modifying the underlying IGMs, SafeRedir adaptively routes unsafe prompts toward safe semantic regions through token-level interventions in the embedding space. The framework comprises two core components: a latent-aware multi-modal safety classifier for identifying unsafe generation trajectories, and a token-level delta generator for precise semantic redirection, equipped with auxiliary predictors for token masking and adaptive scaling to localize and regulate the intervention. Empirical results across multiple representative unlearning tasks demonstrate that SafeRedir achieves effective unlearning capability, high semantic and perceptual preservation, robust image quality, and enhanced resistance to adversarial attacks. Furthermore, SafeRedir generalizes effectively across a variety of diffusion backbones and existing unlearned models, validating its plug-and-play compatibility and broad applicability. Code and data are available at https://github.com/ryliu68/SafeRedir.
- Abstract(参考訳): 画像生成モデル(IGM)は印象的でクリエイティブなコンテンツを制作できるが、トレーニングデータから様々な望ましくない概念を記憶し、NSFW画像や著作権のある芸術スタイルなどの安全でないコンテンツを再現する。
このような振る舞いは、現実のデプロイメントにおいて永続的な安全性とコンプライアンスのリスクをもたらし、そのようなメカニズムの堅牢性やきめ細かいセマンティックコントロールの欠如により、ポストホックフィルタリングによって確実に緩和できない。
モデルレベルでの有害な概念を消去し、コストのかかる再訓練、良質な世代の品質の低下、即時的な言い回しや敵対的な攻撃に耐えられないことの限界を示す。
これらの課題に対処するため,私たちはSafeRedirを紹介した。
IGMを変更することなく、SafeRedirは、埋め込み空間におけるトークンレベルの介入を通じて、安全でないプロンプトを安全なセマンティック領域に適応的にルーティングする。
安全でない生成軌跡を識別するための潜時対応多モード安全分類器と、精密なセマンティックリダイレクトのためのトークンレベルデルタ生成器と、トークンマスキングのための補助的な予測器と、介入のローカライズ及び規制のための適応スケーリングとを備える。
複数の代表的未学習タスクにまたがる実証的な結果から、SafeRedirは効果的な未学習能力、意味と知覚の保存、堅牢な画像品質、敵攻撃に対する耐性の向上を実現している。
さらにSafeRedirは、様々な拡散バックボーンや既存の未学習モデルに対して効果的に一般化し、プラグインとプレイの互換性と幅広い適用性を検証する。
コードとデータはhttps://github.com/ryliu68/SafeRedir.comで公開されている。
関連論文リスト
- SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models [74.11062256255387]
テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。
SafeGuiderは, 生成品質を損なうことなく, 堅牢な安全制御を実現するための2段階のフレームワークである。
SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
論文 参考訳(メタデータ) (2025-10-05T10:24:48Z) - PromptSafe: Gated Prompt Tuning for Safe Text-to-Image Generation [30.2092299298228]
テキスト・ツー・イメージ(T2I)モデルは、暴力的または明示的なイメージなど、安全でない作業用コンテンツ(NSFW)の生成に脆弱である。
本稿では,軽量でテキストのみを教師付きソフト埋め込みと,推論時間付きゲート制御ネットワークを組み合わせたゲートプロンプトチューニングフレームワークであるPromptSafeを提案する。
PromptSafeはSOTAの安全でない生成率(2.36%)を達成し,高い良性を維持していることを示す。
論文 参考訳(メタデータ) (2025-08-02T09:09:40Z) - Hyperbolic Safety-Aware Vision-Language Models [44.06996781749013]
双曲空間の本質的階層的特性を活用することによって、未学習から認知パラダイムへ移行する新しいアプローチを導入する。
我々のHySACであるHyperbolic Safety-Aware CLIPは、安全な画像テキストペアと安全でない画像テキストペア間の階層的および非対称的関係をモデル化するために、entailment loss関数を使用します。
我々のアプローチは、安全性の認識を向上するだけでなく、視覚言語モデルにおけるコンテンツモデレーションのためのより適応的で解釈可能なフレームワークも確立します。
論文 参考訳(メタデータ) (2025-03-15T13:18:04Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。
我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。
安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。