論文の概要: Growth Inhibitors for Suppressing Inappropriate Image Concepts in Diffusion Models
- arxiv url: http://arxiv.org/abs/2408.01014v2
- Date: Mon, 17 Feb 2025 08:34:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 20:34:44.314329
- Title: Growth Inhibitors for Suppressing Inappropriate Image Concepts in Diffusion Models
- Title(参考訳): 拡散モデルにおける不適切なイメージ概念の抑制のための成長抑制剤
- Authors: Die Chen, Zhiwen Li, Mingyuan Fan, Cen Chen, Wenmeng Zhou, Yanhao Wang, Yaliang Li,
- Abstract要約: テキストと画像の拡散モデルは、広範かつ未フィルタリングのトレーニングデータから不適切な概念を不適切な方法で学習する。
本手法は,画像レベルでの微妙な単語の出現を効果的に捉え,ターゲット概念の直接的かつ効率的な消去を可能にする。
- 参考スコア(独自算出の注目度): 35.2881940850787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their remarkable image generation capabilities, text-to-image diffusion models inadvertently learn inappropriate concepts from vast and unfiltered training data, which leads to various ethical and business risks. Specifically, model-generated images may exhibit not safe for work (NSFW) content and style copyright infringements. The prompts that result in these problems often do not include explicit unsafe words; instead, they contain obscure and associative terms, which are referred to as implicit unsafe prompts. Existing approaches directly fine-tune models under textual guidance to alter the cognition of the diffusion model, thereby erasing inappropriate concepts. This not only requires concept-specific fine-tuning but may also incur catastrophic forgetting. To address these issues, we explore the representation of inappropriate concepts in the image space and guide them towards more suitable ones by injecting growth inhibitors, which are tailored based on the identified features related to inappropriate concepts during the diffusion process. Additionally, due to the varying degrees and scopes of inappropriate concepts, we train an adapter to infer the corresponding suppression scale during the injection process. Our method effectively captures the manifestation of subtle words at the image level, enabling direct and efficient erasure of target concepts without the need for fine-tuning. Through extensive experimentation, we demonstrate that our approach achieves superior erasure results with little effect on other concepts while preserving image quality and semantics.
- Abstract(参考訳): その顕著な画像生成能力にもかかわらず、テキストから画像への拡散モデルは、広範でフィルタされていないトレーニングデータから不適切な概念を意図せずに学習し、様々な倫理的、ビジネス的リスクをもたらす。
具体的には、モデル生成画像は職場(NSFW)のコンテンツやスタイルの著作権侵害に対して安全ではない可能性がある。
これらの問題の結果として生じるプロンプトは、しばしば明示的なアンセーフな単語を含まないが、代わりに、暗黙的なアンセーフなプロンプトと呼ばれる、曖昧で連想的な用語を含んでいる。
既存のアプローチはテキスト指導下で直接微調整され、拡散モデルの認識が変化し、不適切な概念が消去される。
これは概念固有の微調整を必要とするだけでなく、破滅的な忘れを招きかねない。
これらの課題に対処するために,画像空間における不適切な概念の表現を探索し,拡散過程における不適切な概念に関連する特徴に基づいて調整された成長抑制剤を注入することにより,より適切な概念へと導く。
さらに,不適切な概念の度合いや範囲が多様であるため,インジェクションプロセス中に対応する抑制スケールを推定するためにアダプタを訓練する。
本手法は,画像レベルでの微妙な単語の出現を効果的に捉え,微調整を必要とせず,目標概念の直接的かつ効率的な消去を可能にする。
本研究では,画像の質や意味を保ちながら,他の概念にはほとんど影響を与えず,優れた消去結果が得られることを示す。
関連論文リスト
- ACE: Attentional Concept Erasure in Diffusion Models [0.0]
Attentional Concept Erasureは、クローズドフォームのアテンション操作と軽量な微調整を統合している。
ACEは最先端の概念の除去とロバスト性を実現する。
従来の方法と比較して、ACEは一般性(概念と関連する用語)と特異性(無関係なコンテンツを保存する)のバランスが良い。
論文 参考訳(メタデータ) (2025-04-16T08:16:28Z) - TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [45.393001061726366]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。
リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。
本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文 参考訳(メタデータ) (2025-03-10T14:37:53Z) - Concept Corrector: Erase concepts on the fly for text-to-image diffusion models [13.065682925662237]
概念消去は、モデルが生成できる望ましくない概念を消去することを目的としている。
本研究では,特定のタイミングで予測される最終生成画像から得られる視覚的特徴に基づいて,対象概念をチェックする概念コレクタを提案する。
パイプライン全体において、我々の手法はモデルパラメータを変更せず、特定のターゲット概念とそれに対応する代替コンテンツのみを必要とする。
論文 参考訳(メタデータ) (2025-02-22T21:53:43Z) - Continuous Concepts Removal in Text-to-image Diffusion Models [27.262721132177845]
著作権を侵害したり、乱暴な主題を描写するコンテンツを作成するためのテキスト・ツー・イメージモデルの可能性について懸念が高まっている。
本稿では,知識蒸留パラダイムを設計したCCRTという新しい手法を提案する。
一連のテキストプロンプトを使用することで、連続的な概念削除プロセス中のテキストイメージのアライメント動作を制限します。
論文 参考訳(メタデータ) (2024-11-30T20:40:10Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [49.60774626839712]
マルチモーダル生成モデルのトレーニングは、ユーザを有害で安全でない、議論の余地のない、あるいは文化的に不適切なアウトプットに晒すことができる。
安全コンテクストの埋め込みと、より安全な画像を生成するための二重再構成プロセスを活用するモジュール型動的ソリューションを提案する。
我々は、モデル安全性の制御可能なバリエーションを提供しながら、安全な画像生成ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - Safe Text-to-Image Generation: Simply Sanitize the Prompt Embedding [13.481343482138888]
視覚に依存しない安全な生成フレームワーク Embedding Sanitizer (ES) を提案する。
ESは、迅速な埋め込みから不適切な概念を消去することに焦点を当て、安全な生成のためにモデルをガイドするために、衛生的な埋め込みを使用する。
ESは、生成品質を維持しつつ、解釈性と制御性の観点から既存の安全ガードを著しく上回っている。
論文 参考訳(メタデータ) (2024-11-15T16:29:02Z) - ShieldDiff: Suppressing Sexual Content Generation from Diffusion Models through Reinforcement Learning [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは、不快な内容の安全でない画像を生成する可能性がある。
我々の研究では、T2IモデルからNSFW(職場では安全ではない)コンテンツ生成を排除することに重点を置いています。
本稿では,CLIP(Contrastive Language- Image Pre-Trening)とヌード報酬(nudity rewards)から構成される独自の報酬関数を提案する。
論文 参考訳(メタデータ) (2024-10-04T19:37:56Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models [58.065255696601604]
拡散モデルの合成特性を使い、単一の画像生成において複数のプロンプトを利用することができる。
本論では, 画像生成の可能なすべてのアプローチを, 相手が適用可能な拡散モデルで検討することが重要であると論じる。
論文 参考訳(メタデータ) (2024-04-21T16:35:16Z) - Self-Discovering Interpretable Diffusion Latent Directions for Responsible Text-to-Image Generation [36.93643249463899]
拡散モデルによるリスクは、バイアスや有害な画像などの不適切なコンテンツの潜在的な生成である。
これまでの研究は、拡散モデルの解釈可能な潜在空間におけるベクトルを意味論的概念として解釈する。
本稿では,ある概念に対する解釈可能な潜在方向を見つけるための,新たな自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2023-11-28T20:40:45Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z) - SurrogatePrompt: Bypassing the Safety Filter of Text-to-Image Models via Substitution [21.93748586123046]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。
我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。
その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文 参考訳(メタデータ) (2023-09-25T13:20:15Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。