論文の概要: Dark Miner: Defend against unsafe generation for text-to-image diffusion models
- arxiv url: http://arxiv.org/abs/2409.17682v1
- Date: Thu, 26 Sep 2024 09:48:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 20:46:02.665026
- Title: Dark Miner: Defend against unsafe generation for text-to-image diffusion models
- Title(参考訳): Dark Miner: テキスト・画像拡散モデルにおける安全でない生成に対する防御
- Authors: Zheling Meng, Bo Peng, Xiaochuan Jin, Yue Jiang, Jing Dong, Wei Wang, Tieniu Tan,
- Abstract要約: テキストと画像の拡散モデルは、フィルタされていない大規模なトレーニングデータにより、安全でない生成で実証されている。
我々は、採掘、検証、回避を含む3段階のプロセスであるダークマイナーを提案する。
本手法は,特に4件の最先端攻撃において,消去効果と防御効果が向上する。
- 参考スコア(独自算出の注目度): 39.76336547603463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models have been demonstrated with unsafe generation due to unfiltered large-scale training data, such as violent, sexual, and shocking images, necessitating the erasure of unsafe concepts. Most existing methods focus on modifying the generation probabilities conditioned on the texts containing unsafe descriptions. However, they fail to guarantee safe generation for unseen texts in the training phase, especially for the prompts from adversarial attacks. In this paper, we re-analyze the erasure task and point out that existing methods cannot guarantee the minimization of the total probabilities of unsafe generation. To tackle this problem, we propose Dark Miner. It entails a recurring three-stage process that comprises mining, verifying, and circumventing. It greedily mines embeddings with maximum generation probabilities of unsafe concepts and reduces unsafe generation more effectively. In the experiments, we evaluate its performance on two inappropriate concepts, two objects, and two styles. Compared with 6 previous state-of-the-art methods, our method achieves better erasure and defense results in most cases, especially under 4 state-of-the-art attacks, while preserving the model's native generation capability. Our code will be available on GitHub.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデルは、暴力的、性的、衝撃的な画像などの大規模なトレーニングデータによって、安全でない概念の消去を必要とするため、安全でない生成で実証されている。
既存のほとんどのメソッドは、安全でない記述を含むテキストに条件付けされた生成確率を変更することに重点を置いている。
しかし、訓練段階の未確認テキスト、特に敵攻撃のプロンプトに対して、安全な生成を保証できない。
本稿では、消去タスクを再解析し、既存の手法では、安全でない生成の総確率の最小化を保証できないことを指摘する。
この問題に対処するため、我々はダークマイナーを提案する。
採掘、検証、回避を含む3段階のプロセスが繰り返される。
安全でない概念の最大生成確率を持つ埋め込みを欲しがりにマイニングし、安全でない概念をより効果的に削減する。
実験では、2つの不適切な概念、2つの対象、2つのスタイルでその性能を評価する。
従来の6つの最先端手法と比較して,本手法は,モデル固有の生成能力を保ちながら,特に4つの最先端攻撃の場合に,消去と防御性が向上する。
私たちのコードはGitHubで公開されます。
関連論文リスト
- Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - ART: Automatic Red-teaming for Text-to-Image Models to Protect Benign Users [18.3621509910395]
そこで本研究では,テキスト・ツー・イメージ・モデルの安全性を評価するために,新しい自動レッド・チーム・フレームワークARTを提案する。
包括的実験により、人気のあるオープンソーステキスト・ツー・イメージモデルの毒性を明らかにする。
また、テキスト・ツー・イメージ・モデルに関連する安全性リスクを研究するために、大規模な3つの赤チームデータセットも導入する。
論文 参考訳(メタデータ) (2024-05-24T07:44:27Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - SafeGen: Mitigating Sexually Explicit Content Generation in Text-to-Image Models [28.23494821842336]
テキスト・ツー・イメージ・モデルは、安全でない作業用コンテンツ(NSFW)を生成するために騙されることがある。
我々は、テキスト・ツー・イメージ・モデルによる性的コンテンツ生成を緩和するフレームワークであるSafeGenを紹介する。
論文 参考訳(メタデータ) (2024-04-10T00:26:08Z) - Unsafe Diffusion: On the Generation of Unsafe Images and Hateful Memes
From Text-To-Image Models [44.10698490171833]
Stable DiffusionやDALLE$cdot$2といった最先端のテキスト・トゥ・イメージモデルは、人々が視覚コンテンツを生成する方法に革命をもたらしている。
テキスト・ツー・イメージ・モデルから、安全でない画像の生成と憎しみに満ちたミームをデミスティフィケートすることに注力する。
論文 参考訳(メタデータ) (2023-05-23T09:48:16Z) - Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models [79.50701155336198]
textbfForget-Me-Notは、適切に設定されたテキスト・ツー・イメージモデルから、指定されたID、オブジェクト、スタイルを30秒で安全に削除するように設計されている。
我々は,Forget-Me-Notが,モデルの性能を他の概念に保ちながら,ターゲットとなる概念を効果的に排除できることを実証した。
また、Stable Diffusionの軽量モデルパッチとして適応することができ、コンセプト操作と便利な配布を可能にしている。
論文 参考訳(メタデータ) (2023-03-30T17:58:11Z) - Constructing Highly Inductive Contexts for Dialogue Safety through
Controllable Reverse Generation [65.48908724440047]
そこで本稿では,ある応答に条件付けされた逆コンテキストを構築するために,エンフレバース生成と呼ばれる手法を提案する。
我々は,Blender,DialoGPT,Plato2の3種類の事前訓練済み対話モデルをテストする。
論文 参考訳(メタデータ) (2022-12-04T12:23:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。