Fugu-MT 論文翻訳(概要): ShieldDiff: Suppressing Sexual Content Generation from Diffusion Models through Reinforcement Learning

論文の概要: ShieldDiff: Suppressing Sexual Content Generation from Diffusion Models through Reinforcement Learning

arxiv url: http://arxiv.org/abs/2410.05309v1
Date: Fri, 4 Oct 2024 19:37:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 19:37:51.350241
Title: ShieldDiff: Suppressing Sexual Content Generation from Diffusion Models through Reinforcement Learning
Title（参考訳）: ShieldDiff:強化学習による拡散モデルからの性コンテンツ生成の抑制
Authors: Dong Han, Salaheldin Mohamed, Yong Li,
Abstract要約: テキスト・ツー・イメージ(T2I)モデルは、不快な内容の安全でない画像を生成する可能性がある。我々の研究では、T2IモデルからNSFW(職場では安全ではない)コンテンツ生成を排除することに重点を置いています。本稿では,CLIP(Contrastive Language- Image Pre-Trening)とヌード報酬(nudity rewards)から構成される独自の報酬関数を提案する。
参考スコア（独自算出の注目度）: 7.099258248662009
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: With the advance of generative AI, the text-to-image (T2I) model has the ability to generate various contents. However, the generated contents cannot be fully controlled. There is a potential risk that T2I model can generate unsafe images with uncomfortable contents. In our work, we focus on eliminating the NSFW (not safe for work) content generation from T2I model while maintaining the high quality of generated images by fine-tuning the pre-trained diffusion model via reinforcement learning by optimizing the well-designed content-safe reward function. The proposed method leverages a customized reward function consisting of the CLIP (Contrastive Language-Image Pre-training) and nudity rewards to prune the nudity contents that adhere to the pret-rained model and keep the corresponding semantic meaning on the safe side. In this way, the T2I model is robust to unsafe adversarial prompts since unsafe visual representations are mitigated from latent space. Extensive experiments conducted on different datasets demonstrate the effectiveness of the proposed method in alleviating unsafe content generation while preserving the high-fidelity of benign images as well as images generated by unsafe prompts. We compare with five existing state-of-the-art (SOTA) methods and achieve competitive performance on sexual content removal and image quality retention. In terms of robustness, our method outperforms counterparts under the SOTA black-box attacking model. Furthermore, our constructed method can be a benchmark for anti-NSFW generation with semantically-relevant safe alignment.
Abstract（参考訳）: 生成AIの進歩により、テキスト・ツー・イメージ(T2I)モデルは様々なコンテンツを生成する能力を持つ。しかし、生成された内容は完全には制御できない。 T2Iモデルは、不快な内容の安全でない画像を生成できる可能性がある。本研究は,T2IモデルからNSFW(職場では安全ではない)コンテンツ生成を排除しつつ,事前学習した拡散モデルを強化学習により微調整し,良質なコンテンツセーフ報酬関数を最適化することにより,生成画像の品質を維持しながら焦点を当てる。提案手法は,CLIP(Contrastive Language- Image Pre-Traiing)とヌード報酬(Nudity rewards)から構成されるカスタマイズされた報酬関数を利用して,プレトレイドモデルに準拠したヌードコンテンツを作成し,それに対応する意味的意味を安全な側に保持する。このようにして、T2Iモデルは、安全でない視覚表現が潜在空間から緩和されるため、安全でない敵のプロンプトに対して堅牢である。異なるデータセットで行った大規模な実験は、安全でないプロンプトが生成した画像だけでなく良質な画像の高忠実性を保ちながら、安全でないコンテンツ生成を緩和する手法の有効性を実証している。既存の5つの方法(SOTA)と比較し、性的コンテンツ削除と画像品質保持の競争性能を達成する。堅牢性の観点からは,SOTAブラックボックス攻撃モデルにおいて,本手法の方が優れている。さらに, 提案手法は, セマンティックな安全アライメントを有する反NSFW生成のベンチマークとなる。

関連論文リスト

SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。 SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文参考訳（メタデータ） (2026-01-13T15:01:38Z)
CGCE: Classifier-Guided Concept Erasure in Generative Models [53.7410000675294]
概念消去は、事前訓練されたモデルから望ましくない概念を取り除くために開発された。既存の方法は、削除されたコンテンツを再生できる敵攻撃に弱いままである。多様な生成モデルに対して堅牢な概念消去を提供する効率的なプラグアンドプレイフレームワークを提案する。
論文参考訳（メタデータ） (2025-11-08T05:38:18Z)
SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models [74.11062256255387]
テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。 SafeGuiderは, 生成品質を損なうことなく, 堅牢な安全制御を実現するための2段階のフレームワークである。 SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
論文参考訳（メタデータ） (2025-10-05T10:24:48Z)
VCE: Safe Autoregressive Image Generation via Visual Contrast Exploitation [57.36681904639463]
自己回帰的テキスト・画像モデルを保護する方法はまだ未検討のままである。コンテンツセマンティクスから安全でない概念を正確に分離する新しいフレームワークであるVisual Contrast Exploitation (VCE)を提案する。提案手法は,安全でない概念を消去し,無関係な概念の整合性を保ちながら,最先端の成果を効果的に確保できることを実証する。
論文参考訳（メタデータ） (2025-09-21T09:00:27Z)
GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文参考訳（メタデータ） (2025-06-11T09:09:12Z)
ShieldGemma 2: Robust and Tractable Image Content Moderation [63.36923375135708]
ShieldGemma 2はGemma 3上に構築された4Bパラメータの画像コンテンツモデレーションモデルである。このモデルでは、Sexually Explicit、Violence & Gore、Dangerous Contentの合成画像に対して、以下の主要な危険カテゴリにわたって堅牢な安全性リスク予測を提供する。
論文参考訳（メタデータ） (2025-04-01T18:00:20Z)
CROPS: Model-Agnostic Training-Free Framework for Safe Image Synthesis with Latent Diffusion Models [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。我々は、NSFW画像を生成する敵攻撃に対して、追加の訓練を必要とせずに容易に防御できるモデルに依存しないフレームワークであるCROPSを提案する。
論文参考訳（メタデータ） (2025-01-09T16:43:21Z)
Safeguarding Text-to-Image Generation via Inference-Time Prompt-Noise Optimization [29.378296359782585]
テキスト・ツー・イメージ(T2I)拡散モデルはテキスト・プロンプトに基づいて高品質で多様な画像を生成する能力で広く認識されている。 T2Iモデルの不適切な画像生成を防ぐための現在の取り組みは、バイパスが容易であり、敵の攻撃に対して脆弱である。本稿では,PNO(Prompt-Noise Optimization)と呼ばれる,安全でない画像生成を緩和する新しい学習不要手法を提案する。
論文参考訳（メタデータ） (2024-12-05T05:12:30Z)
Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [49.60774626839712]
マルチモーダル生成モデルのトレーニングは、ユーザを有害で安全でない、議論の余地のない、あるいは文化的に不適切なアウトプットに晒すことができる。安全コンテクストの埋め込みと、より安全な画像を生成するための二重再構成プロセスを活用するモジュール型動的ソリューションを提案する。我々は、モデル安全性の制御可能なバリエーションを提供しながら、安全な画像生成ベンチマークの最先端結果を達成する。
論文参考訳（メタデータ） (2024-11-21T09:47:13Z)
Safe Text-to-Image Generation: Simply Sanitize the Prompt Embedding [13.481343482138888]
視覚に依存しない安全な生成フレームワーク Embedding Sanitizer (ES) を提案する。 ESは、迅速な埋め込みから不適切な概念を消去することに焦点を当て、安全な生成のためにモデルをガイドするために、衛生的な埋め込みを使用する。 ESは、生成品質を維持しつつ、解釈性と制御性の観点から既存の安全ガードを著しく上回っている。
論文参考訳（メタデータ） (2024-11-15T16:29:02Z)
SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation [65.30207993362595]
安全な生成のための学習/編集に基づく手法は、モデルから有害な概念を取り除くが、いくつかの課題に直面している。安全なT2IとT2VのためのトレーニングフリーアプローチであるSAFREEを提案する。テキスト埋め込み空間における有毒な概念の集合に対応する部分空間を検出し、この部分空間から直ちに埋め込みを行う。
論文参考訳（メタデータ） (2024-10-16T17:32:23Z)
Direct Unlearning Optimization for Robust and Safe Text-to-Image Models [29.866192834825572]
モデルが潜在的に有害なコンテンツを生成する能力を取り除くために、未学習の技術が開発されている。これらの手法は敵の攻撃によって容易に回避され、生成した画像の安全性を確保するには信頼性が低い。 T2IモデルからNot Safe For Work(NSFW)コンテンツを除去するための新しいフレームワークであるDirect Unlearning Optimization (DUO)を提案する。
論文参考訳（メタデータ） (2024-07-17T08:19:11Z)
Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文参考訳（メタデータ） (2024-04-11T17:59:52Z)
SafeGen: Mitigating Sexually Explicit Content Generation in Text-to-Image Models [28.23494821842336]
テキスト・ツー・イメージ・モデルは、安全でない作業用コンテンツ(NSFW)を生成するために騙されることがある。我々は、テキスト・ツー・イメージ・モデルによる性的コンテンツ生成を緩和するフレームワークであるSafeGenを紹介する。
論文参考訳（メタデータ） (2024-04-10T00:26:08Z)
Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文参考訳（メタデータ） (2023-10-16T02:11:20Z)
Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文参考訳（メタデータ） (2023-09-12T11:19:36Z)
Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文参考訳（メタデータ） (2023-07-12T07:48:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。