論文の概要: Comprehensive Evaluation and Analysis for NSFW Concept Erasure in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2505.15450v1
- Date: Wed, 21 May 2025 12:31:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.636056
- Title: Comprehensive Evaluation and Analysis for NSFW Concept Erasure in Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルにおけるNSFW概念消去の包括的評価と解析
- Authors: Die Chen, Zhiwen Li, Cen Chen, Yuexiang Xie, Xiaodan Li, Jinyan Ye, Yingda Chen, Yaliang Li,
- Abstract要約: 拡散モデルの強い一般化能力は、必然的にNSFW(Not-safe-for-work)コンテンツの生成につながる。
提案手法は,NSFW の概念消去法の最初の体系的な研究を行い,概念消去に特化して設計されたフルパイプ・ツールキットである。
- 参考スコア(独自算出の注目度): 35.41653420113366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models have gained widespread application across various domains, demonstrating remarkable creative potential. However, the strong generalization capabilities of diffusion models can inadvertently lead to the generation of not-safe-for-work (NSFW) content, posing significant risks to their safe deployment. While several concept erasure methods have been proposed to mitigate the issue associated with NSFW content, a comprehensive evaluation of their effectiveness across various scenarios remains absent. To bridge this gap, we introduce a full-pipeline toolkit specifically designed for concept erasure and conduct the first systematic study of NSFW concept erasure methods. By examining the interplay between the underlying mechanisms and empirical observations, we provide in-depth insights and practical guidance for the effective application of concept erasure methods in various real-world scenarios, with the aim of advancing the understanding of content safety in diffusion models and establishing a solid foundation for future research and development in this critical area.
- Abstract(参考訳): テキストから画像への拡散モデルは、様々な領域に広く応用され、驚くべき創造的可能性を示している。
しかし、拡散モデルの強力な一般化能力は、必然的にNSFW(un-safe-for-work)コンテンツの生成を招き、その安全な展開に重大なリスクをもたらす可能性がある。
NSFWコンテンツに関連する問題を緩和するために、いくつかの概念消去手法が提案されているが、様々なシナリオにおけるそれらの有効性に関する包括的な評価はいまだに残っていない。
このギャップを埋めるために,NSFW の概念消去方法の体系的研究を初めて行ない,概念消去に特化して設計されたフルパイプ・ツールキットを導入する。
基礎となるメカニズムと経験的観察の相互作用を調べることにより、様々な現実シナリオにおける概念消去手法の効果的な適用のための深い洞察と実践的ガイダンスを提供し、拡散モデルにおけるコンテンツ安全性の理解を深め、この重要な領域における将来の研究・開発のための確固たる基盤を確立することを目的としている。
関連論文リスト
- Responsible Diffusion Models via Constraining Text Embeddings within Safe Regions [35.28819408507869]
また、NSFW(Not Safe for Work)コンテンツを作成し、社会的偏見を示す可能性を懸念している。
本稿では,安全な領域に埋め込まれたテキストの埋め込みを制限するために,埋め込み空間における意味方向ベクトルを同定する,新たな自己発見手法を提案する。
本手法は, 拡散モデルにより生ずるNSFW含量と社会的バイアスを, 最先端のベースラインと比較して効果的に低減することができる。
論文 参考訳(メタデータ) (2025-05-21T12:10:26Z) - Detect-and-Guide: Self-regulation of Diffusion Models for Safe Text-to-Image Generation via Guideline Token Optimization [22.225141381422873]
有害なコンテンツを生成するテキストと画像の拡散モデルに対する懸念が高まっている。
概念アンラーニングや安全ガイダンスのようなポストホックモデルの介入技術は、これらのリスクを軽減するために開発されている。
本稿では,自己診断と詳細な自己制御を行うための安全生成フレームワークであるDector-and-Guide(DAG)を提案する。
DAGは最先端の安全な生成性能を実現し、有害性軽減とテキスト追跡性能を現実のプロンプトでバランスさせる。
論文 参考訳(メタデータ) (2025-03-19T13:37:52Z) - Comprehensive Assessment and Analysis for NSFW Content Erasure in Text-to-Image Diffusion Models [16.60455968933097]
概念消去手法は、トレーニングデータセットからNSFWコンテンツをフィルタリングしても、必然的にNSFWコンテンツを生成できる。
テキスト・画像拡散モデルにおいて,NSFWコンテンツの概念消去手法とそのサブテーマを初めて体系的に検討した。
14の変種を持つ11の最先端ベースライン手法の総合評価を行う。
論文 参考訳(メタデータ) (2025-02-18T04:25:42Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [49.60774626839712]
マルチモーダル生成モデルは 彼らの公正さ、信頼性、そして誤用の可能性について 批判的な議論を呼んだ
組込み空間における摂動に対する応答を通じてモデルの信頼性を評価するための評価フレームワークを提案する。
本手法は, 信頼できない, バイアス注入されたモデルを検出し, バイアス前駆体の検索を行うための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。