論文の概要: TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.07389v1
- Date: Mon, 10 Mar 2025 14:37:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 20:09:44.969222
- Title: TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models
- Title(参考訳): TRCE:テキスト・画像拡散モデルにおける信頼性の高い悪意的概念消去を目指して
- Authors: Ruidong Chen, Honglin Guo, Lanjun Wang, Chenyu Zhang, Weizhi Nie, An-An Liu,
- Abstract要約: 近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。
リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。
本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
- 参考スコア(独自算出の注目度): 45.393001061726366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-to-image diffusion models enable photorealistic image generation, but they also risk producing malicious content, such as NSFW images. To mitigate risk, concept erasure methods are studied to facilitate the model to unlearn specific concepts. However, current studies struggle to fully erase malicious concepts implicitly embedded in prompts (e.g., metaphorical expressions or adversarial prompts) while preserving the model's normal generation capability. To address this challenge, our study proposes TRCE, using a two-stage concept erasure strategy to achieve an effective trade-off between reliable erasure and knowledge preservation. Firstly, TRCE starts by erasing the malicious semantics implicitly embedded in textual prompts. By identifying a critical mapping objective(i.e., the [EoT] embedding), we optimize the cross-attention layers to map malicious prompts to contextually similar prompts but with safe concepts. This step prevents the model from being overly influenced by malicious semantics during the denoising process. Following this, considering the deterministic properties of the sampling trajectory of the diffusion model, TRCE further steers the early denoising prediction toward the safe direction and away from the unsafe one through contrastive learning, thus further avoiding the generation of malicious content. Finally, we conduct comprehensive evaluations of TRCE on multiple malicious concept erasure benchmarks, and the results demonstrate its effectiveness in erasing malicious concepts while better preserving the model's original generation ability. The code is available at: http://github.com/ddgoodgood/TRCE. CAUTION: This paper includes model-generated content that may contain offensive material.
- Abstract(参考訳): 近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。
リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。
しかし、現在の研究では、モデルの通常の生成能力を保ちながら、暗黙的にプロンプトに埋め込まれた悪意ある概念(例:比喩的表現や敵対的プロンプト)を完全に消し去るのに苦労している。
そこで本研究では,2段階のコンセプト消去戦略を用いて,信頼できる消去と知識保存の効果的なトレードオフを実現することを目的としたTRCEを提案する。
まず、TRCEはテキストプロンプトに暗黙的に埋め込まれた悪意のあるセマンティクスを消去することから始める。
クリティカルマッピングの目的(すなわち[EoT]埋め込み)を識別することで、悪意のあるプロンプトをコンテキスト的に類似したプロンプトにマップするために、クロスアテンション層を最適化します。
このステップは、デノナイジングプロセス中に悪意のあるセマンティクスによってモデルが過度に影響されることを防ぐ。
その後、拡散モデルのサンプリング軌道の決定論的特性を考慮すると、TRCEは、安全でないものから遠ざかって安全方向への早期の偏差予測を、コントラスト学習により促進し、悪意のあるコンテンツの発生を回避できる。
最後に,複数の悪質な概念消去ベンチマークを用いてTRCEの総合評価を行い,その妥当性を検証した。
コードは、http://github.com/ddgoodgood/TRCE.comで入手できる。
カウション: 本論文は、攻撃性物質を含む可能性のあるモデル生成内容を含む。
関連論文リスト
- On the Vulnerability of Concept Erasure in Diffusion Models [13.916443687966039]
マシン・アンラーニングの研究は、ホック後のトレーニングを通じて不要なデータの影響を除去することを目的とした、様々な概念消去手法を開発した。
これらの消去技術は脆弱であり、敵に製作されたプロンプトを用いて、消去されたとされる概念のイメージを生成可能であることを示す。
本稿では, 削除コンテンツの生成を誘導できるプロンプトを検出するアルゴリズムであるRECORDを紹介する。
論文 参考訳(メタデータ) (2025-02-24T17:26:01Z) - Continuous Concepts Removal in Text-to-image Diffusion Models [27.262721132177845]
著作権を侵害したり、乱暴な主題を描写するコンテンツを作成するためのテキスト・ツー・イメージモデルの可能性について懸念が高まっている。
本稿では,知識蒸留パラダイムを設計したCCRTという新しい手法を提案する。
一連のテキストプロンプトを使用することで、連続的な概念削除プロセス中のテキストイメージのアライメント動作を制限します。
論文 参考訳(メタデータ) (2024-11-30T20:40:10Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。
我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。
安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - Growth Inhibitors for Suppressing Inappropriate Image Concepts in Diffusion Models [35.2881940850787]
テキストと画像の拡散モデルは、広範かつ未フィルタリングのトレーニングデータから不適切な概念を不適切な方法で学習する。
本手法は,画像レベルでの微妙な単語の出現を効果的に捉え,ターゲット概念の直接的かつ効率的な消去を可能にする。
論文 参考訳(メタデータ) (2024-08-02T05:17:14Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。