論文の概要: Responsible Diffusion Models via Constraining Text Embeddings within Safe Regions
- arxiv url: http://arxiv.org/abs/2505.15427v1
- Date: Wed, 21 May 2025 12:10:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.619799
- Title: Responsible Diffusion Models via Constraining Text Embeddings within Safe Regions
- Title(参考訳): 安全な領域におけるテキスト埋め込みの制約による応答性拡散モデル
- Authors: Zhiwen Li, Die Chen, Mingyuan Fan, Cen Chen, Yaliang Li, Yanhao Wang, Wenmeng Zhou,
- Abstract要約: また、NSFW(Not Safe for Work)コンテンツを作成し、社会的偏見を示す可能性を懸念している。
本稿では,安全な領域に埋め込まれたテキストの埋め込みを制限するために,埋め込み空間における意味方向ベクトルを同定する,新たな自己発見手法を提案する。
本手法は, 拡散モデルにより生ずるNSFW含量と社会的バイアスを, 最先端のベースラインと比較して効果的に低減することができる。
- 参考スコア(独自算出の注目度): 35.28819408507869
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The remarkable ability of diffusion models to generate high-fidelity images has led to their widespread adoption. However, concerns have also arisen regarding their potential to produce Not Safe for Work (NSFW) content and exhibit social biases, hindering their practical use in real-world applications. In response to this challenge, prior work has focused on employing security filters to identify and exclude toxic text, or alternatively, fine-tuning pre-trained diffusion models to erase sensitive concepts. Unfortunately, existing methods struggle to achieve satisfactory performance in the sense that they can have a significant impact on the normal model output while still failing to prevent the generation of harmful content in some cases. In this paper, we propose a novel self-discovery approach to identifying a semantic direction vector in the embedding space to restrict text embedding within a safe region. Our method circumvents the need for correcting individual words within the input text and steers the entire text prompt towards a safe region in the embedding space, thereby enhancing model robustness against all possibly unsafe prompts. In addition, we employ Low-Rank Adaptation (LoRA) for semantic direction vector initialization to reduce the impact on the model performance for other semantics. Furthermore, our method can also be integrated with existing methods to improve their social responsibility. Extensive experiments on benchmark datasets demonstrate that our method can effectively reduce NSFW content and mitigate social bias generated by diffusion models compared to several state-of-the-art baselines.
- Abstract(参考訳): 高忠実度画像を生成するための拡散モデルの顕著な能力は、その普及に繋がった。
しかし、NSFW(Not Safe for Work)コンテンツを制作し、社会的偏見を示す可能性についても懸念が持ち上がっており、現実のアプリケーションでの使用を妨げている。
この課題に対する先行研究は、有害なテキストを識別・排除するためにセキュリティフィルタを使うこと、あるいは機密概念を消去するために、微調整済みの拡散モデルを使用することに重点を置いている。
残念なことに、既存の手法は、通常のモデル出力に重大な影響を与えながら、場合によっては有害なコンテンツの発生を防げないという意味で、満足なパフォーマンスを達成するのに苦労しています。
本稿では,安全な領域に埋め込まれたテキストの埋め込みを制限するために,埋め込み空間における意味方向ベクトルを同定する,新たな自己発見手法を提案する。
提案手法は,入力テキスト内の個々の単語の修正の必要性を回避し,埋め込み空間内の安全な領域に向けて全テキストプロンプトを操り,潜在的に安全でないすべてのプロンプトに対するモデルロバスト性を高める。
さらに,ローランド適応(LoRA)を用いて意味方向ベクトル初期化を行い,他の意味論におけるモデル性能への影響を低減する。
また,既存の手法と統合して社会的責任を改善することも可能である。
提案手法は, 拡散モデルにより生ずる社会バイアスを, 最先端のベースラインと比較して効果的に低減し, 緩和できることを示す。
関連論文リスト
- Comprehensive Evaluation and Analysis for NSFW Concept Erasure in Text-to-Image Diffusion Models [35.41653420113366]
拡散モデルの強い一般化能力は、必然的にNSFW(Not-safe-for-work)コンテンツの生成につながる。
提案手法は,NSFW の概念消去法の最初の体系的な研究を行い,概念消去に特化して設計されたフルパイプ・ツールキットである。
論文 参考訳(メタデータ) (2025-05-21T12:31:45Z) - Detect-and-Guide: Self-regulation of Diffusion Models for Safe Text-to-Image Generation via Guideline Token Optimization [22.225141381422873]
有害なコンテンツを生成するテキストと画像の拡散モデルに対する懸念が高まっている。
概念アンラーニングや安全ガイダンスのようなポストホックモデルの介入技術は、これらのリスクを軽減するために開発されている。
本稿では,自己診断と詳細な自己制御を行うための安全生成フレームワークであるDector-and-Guide(DAG)を提案する。
DAGは最先端の安全な生成性能を実現し、有害性軽減とテキスト追跡性能を現実のプロンプトでバランスさせる。
論文 参考訳(メタデータ) (2025-03-19T13:37:52Z) - Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。
本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。
本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文 参考訳(メタデータ) (2024-11-30T04:37:38Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - SteerDiff: Steering towards Safe Text-to-Image Diffusion Models [5.781285400461636]
テキスト・ツー・イメージ(T2I)拡散モデルは不適切なコンテンツを生成するために誤用することができる。
本稿では,ユーザ入力と拡散モデルの間の仲介として機能する軽量適応モジュールであるSteerDiffを紹介する。
提案手法の有効性を評価するために,様々な概念の未学習タスクに対して広範な実験を行う。
論文 参考訳(メタデータ) (2024-10-03T17:34:55Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。