論文の概要: Comprehensive Assessment and Analysis for NSFW Content Erasure in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2502.12527v1
- Date: Tue, 18 Feb 2025 04:25:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:07:10.380376
- Title: Comprehensive Assessment and Analysis for NSFW Content Erasure in Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルにおけるNSFWコンテンツ消去の包括的評価と解析
- Authors: Die Chen, Zhiwen Li, Cen Chen, Xiaodan Li, Jinyan Ye,
- Abstract要約: 概念消去手法は、トレーニングデータセットからNSFWコンテンツをフィルタリングしても、必然的にNSFWコンテンツを生成できる。
テキスト・画像拡散モデルにおいて,NSFWコンテンツの概念消去手法とそのサブテーマを初めて体系的に検討した。
14の変種を持つ11の最先端ベースライン手法の総合評価を行う。
- 参考スコア(独自算出の注目度): 16.60455968933097
- License:
- Abstract: Text-to-image (T2I) diffusion models have gained widespread application across various domains, demonstrating remarkable creative potential. However, the strong generalization capabilities of these models can inadvertently led they to generate NSFW content even with efforts on filtering NSFW content from the training dataset, posing risks to their safe deployment. While several concept erasure methods have been proposed to mitigate this issue, a comprehensive evaluation of their effectiveness remains absent. To bridge this gap, we present the first systematic investigation of concept erasure methods for NSFW content and its sub-themes in text-to-image diffusion models. At the task level, we provide a holistic evaluation of 11 state-of-the-art baseline methods with 14 variants. Specifically, we analyze these methods from six distinct assessment perspectives, including three conventional perspectives, i.e., erasure proportion, image quality, and semantic alignment, and three new perspectives, i.e., excessive erasure, the impact of explicit and implicit unsafe prompts, and robustness. At the tool level, we perform a detailed toxicity analysis of NSFW datasets and compare the performance of different NSFW classifiers, offering deeper insights into their performance alongside a compilation of comprehensive evaluation metrics. Our benchmark not only systematically evaluates concept erasure methods, but also delves into the underlying factors influencing their performance at the insight level. By synthesizing insights from various evaluation perspectives, we provide a deeper understanding of the challenges and opportunities in the field, offering actionable guidance and inspiration for advancing research and practical applications in concept erasure.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルは様々な領域で広く応用され、驚くべき創造的可能性を示している。
しかし、これらのモデルの強力な一般化能力は、トレーニングデータセットからNSFWコンテンツをフィルタリングする努力をしながらも、NSFWコンテンツを不注意に生成させ、安全なデプロイメントにリスクを生じさせる可能性がある。
この問題を緩和するためにいくつかの概念消去法が提案されているが、その効果の包括的な評価はいまだに残っていない。
このギャップを埋めるために,テキスト・ツー・イメージ拡散モデルにおいて,NSFWコンテンツとそのサブテーマの概念消去手法を初めて体系的に検討する。
タスクレベルでは、14の変種を持つ11の最先端のベースライン手法の総合評価を行う。
具体的には,これらの手法を,消去率,画像品質,セマンティックアライメントという従来の3つの視点,過度の消去,明示的および暗黙的不安全プロンプトの影響,ロバストネスの3つの視点を含む6つの異なる評価視点から分析する。
ツールレベルでは、NSFWデータセットの詳細な毒性分析を行い、異なるNSFW分類器のパフォーマンスを比較し、総合的な評価指標のコンパイルとともに、そのパフォーマンスに関する深い洞察を提供する。
本ベンチマークでは,概念消去手法を体系的に評価するだけでなく,インサイトレベルでの性能に影響を及ぼす要因についても検討する。
様々な評価の観点から洞察を合成することにより、この分野における課題と機会をより深く理解し、概念消去における研究と実践的応用の進歩に有効なガイダンスとインスピレーションを提供する。
関連論文リスト
- EraseBench: Understanding The Ripple Effects of Concept Erasure Techniques [20.2544260436998]
概念消去技術は、テキスト・ツー・イメージ・モデルから不要な概念を取り除くことができる。
我々は,現在の概念消去技術の障害モードを体系的に検討する。
本稿では,概念消去手法をより深く評価するためのベンチマークであるEraseBENCHを紹介する。
以上の結果から,最先端技術でさえ品質維持に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-16T20:42:17Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [49.60774626839712]
マルチモーダル生成モデルは 彼らの公正さ、信頼性、そして誤用の可能性について 批判的な議論を呼んだ
組込み空間における摂動に対する応答を通じてモデルの信頼性を評価するための評価フレームワークを提案する。
本手法は, 信頼できない, バイアス注入されたモデルを検出し, バイアス前駆体の検索を行うための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Text-to-Image Representativity Fairness Evaluation Framework [0.42970700836450487]
本稿では,テキスト・ツー・イメージ(TTI)表現性評価フレームワークを提案する。
本稿では,TTIシステムの多様性,包摂性,品質の3つの側面を評価する。
安定拡散に関する我々のフレームワークの評価は、このフレームワークがTTIシステムのバイアスを効果的に捉えることができることを示している。
論文 参考訳(メタデータ) (2024-10-18T06:31:57Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Toward Understanding the Disagreement Problem in Neural Network Feature Attribution [0.8057006406834466]
ニューラルネットワークは 複雑なパターンと関係を 生のデータから識別する
これらのブラックボックスモデルの内部動作を理解することは、依然として難しいが、高い意思決定には不可欠である。
我々の研究は、説明の基本的な、分布的な振る舞いを調査することによって、この混乱に対処する。
論文 参考訳(メタデータ) (2024-04-17T12:45:59Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文 参考訳(メタデータ) (2022-05-20T20:50:17Z) - Towards Fine-grained Human Pose Transfer with Detail Replenishing
Network [96.54367984986898]
ヒューマン・ポーズ・トランスファー(HPT)は、ファッションデザイン、メディア制作、オンライン広告、バーチャルリアリティーにおいて大きな可能性を秘めている研究分野である。
既存のHPT手法は、詳細不足、内容の曖昧さ、スタイルの不整合という3つの根本的な問題に悩まされることが多い。
我々は、より難易度が高く実用的なHPTセッティングを開発し、よりセマンティックな忠実さと詳細な補充に焦点を当てた、FHPT(F Fine-fine Human Pose Transfer)と呼ばれる。
論文 参考訳(メタデータ) (2020-05-26T03:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。