論文の概要: Dark Miner: Defend against unsafe generation for text-to-image diffusion models
- arxiv url: http://arxiv.org/abs/2409.17682v1
- Date: Thu, 26 Sep 2024 09:48:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 20:46:02.665026
- Title: Dark Miner: Defend against unsafe generation for text-to-image diffusion models
- Title(参考訳): Dark Miner: テキスト・画像拡散モデルにおける安全でない生成に対する防御
- Authors: Zheling Meng, Bo Peng, Xiaochuan Jin, Yue Jiang, Jing Dong, Wei Wang, Tieniu Tan,
- Abstract要約: テキストと画像の拡散モデルは、フィルタされていない大規模なトレーニングデータにより、安全でない生成で実証されている。
我々は、採掘、検証、回避を含む3段階のプロセスであるダークマイナーを提案する。
本手法は,特に4件の最先端攻撃において,消去効果と防御効果が向上する。
- 参考スコア(独自算出の注目度): 39.76336547603463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models have been demonstrated with unsafe generation due to unfiltered large-scale training data, such as violent, sexual, and shocking images, necessitating the erasure of unsafe concepts. Most existing methods focus on modifying the generation probabilities conditioned on the texts containing unsafe descriptions. However, they fail to guarantee safe generation for unseen texts in the training phase, especially for the prompts from adversarial attacks. In this paper, we re-analyze the erasure task and point out that existing methods cannot guarantee the minimization of the total probabilities of unsafe generation. To tackle this problem, we propose Dark Miner. It entails a recurring three-stage process that comprises mining, verifying, and circumventing. It greedily mines embeddings with maximum generation probabilities of unsafe concepts and reduces unsafe generation more effectively. In the experiments, we evaluate its performance on two inappropriate concepts, two objects, and two styles. Compared with 6 previous state-of-the-art methods, our method achieves better erasure and defense results in most cases, especially under 4 state-of-the-art attacks, while preserving the model's native generation capability. Our code will be available on GitHub.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデルは、暴力的、性的、衝撃的な画像などの大規模なトレーニングデータによって、安全でない概念の消去を必要とするため、安全でない生成で実証されている。
既存のほとんどのメソッドは、安全でない記述を含むテキストに条件付けされた生成確率を変更することに重点を置いている。
しかし、訓練段階の未確認テキスト、特に敵攻撃のプロンプトに対して、安全な生成を保証できない。
本稿では、消去タスクを再解析し、既存の手法では、安全でない生成の総確率の最小化を保証できないことを指摘する。
この問題に対処するため、我々はダークマイナーを提案する。
採掘、検証、回避を含む3段階のプロセスが繰り返される。
安全でない概念の最大生成確率を持つ埋め込みを欲しがりにマイニングし、安全でない概念をより効果的に削減する。
実験では、2つの不適切な概念、2つの対象、2つのスタイルでその性能を評価する。
従来の6つの最先端手法と比較して,本手法は,モデル固有の生成能力を保ちながら,特に4つの最先端攻撃の場合に,消去と防御性が向上する。
私たちのコードはGitHubで公開されます。
関連論文リスト
- Concept Steerers: Leveraging K-Sparse Autoencoders for Controllable Generations [10.86252546314626]
テキスト・ツー・イメージ生成モデルは、敵対的な攻撃をしがちであり、不安全で非倫理的なコンテンツを不注意に生成する。
我々は,k-スパースオートエンコーダ(k-SAE)を活用して,効率的な,解釈可能な概念操作を実現する新しいフレームワークを提案する。
提案手法は, 安全でない概念除去において$mathbf20.01%$の改善を実現し, スタイル操作に有効であり, 現在の最先端技術よりも$mathbfsim5$x高速である。
論文 参考訳(メタデータ) (2025-01-31T11:52:47Z) - Continuous Concepts Removal in Text-to-image Diffusion Models [27.262721132177845]
著作権を侵害したり、乱暴な主題を描写するコンテンツを作成するためのテキスト・ツー・イメージモデルの可能性について懸念が高まっている。
本稿では,知識蒸留パラダイムを設計したCCRTという新しい手法を提案する。
一連のテキストプロンプトを使用することで、連続的な概念削除プロセス中のテキストイメージのアライメント動作を制限します。
論文 参考訳(メタデータ) (2024-11-30T20:40:10Z) - Safe Text-to-Image Generation: Simply Sanitize the Prompt Embedding [13.481343482138888]
視覚に依存しない安全な生成フレームワーク Embedding Sanitizer (ES) を提案する。
ESは、迅速な埋め込みから不適切な概念を消去することに焦点を当て、安全な生成のためにモデルをガイドするために、衛生的な埋め込みを使用する。
ESは、生成品質を維持しつつ、解釈性と制御性の観点から既存の安全ガードを著しく上回っている。
論文 参考訳(メタデータ) (2024-11-15T16:29:02Z) - Chain-of-Jailbreak Attack for Image Generation Models via Editing Step by Step [62.82566977845765]
ステップバイステップの編集プロセスを通じて画像生成モデルを損なう、Chain-of-Jailbreak (CoJ)アタックと呼ばれる新しいジェイルブレイク手法を提案する。
我々のCoJ攻撃手法は、60%以上のケースでモデルの保護を回避できる。
また,効果的なプロンプトベース手法であるThink Twice Promptingを提案する。
論文 参考訳(メタデータ) (2024-10-04T19:04:43Z) - Avoiding Generative Model Writer's Block With Embedding Nudging [8.3196702956302]
我々は、遅延拡散画像生成モデルと、それらがオーバーヘッドに制限された類似画像を生成しながら、それらが特定の画像を生成するのを防ぐ方法に焦点をあてる。
本手法は,修正されていないモデルと同等の画質と関連性を保ちながら,記憶されたトレーニング画像の生成を効果的に防止する。
論文 参考訳(メタデータ) (2024-08-28T00:07:51Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models [79.50701155336198]
textbfForget-Me-Notは、適切に設定されたテキスト・ツー・イメージモデルから、指定されたID、オブジェクト、スタイルを30秒で安全に削除するように設計されている。
我々は,Forget-Me-Notが,モデルの性能を他の概念に保ちながら,ターゲットとなる概念を効果的に排除できることを実証した。
また、Stable Diffusionの軽量モデルパッチとして適応することができ、コンセプト操作と便利な配布を可能にしている。
論文 参考訳(メタデータ) (2023-03-30T17:58:11Z) - Diffusion Models for Adversarial Purification [69.1882221038846]
対人浄化(Adrial purification)とは、生成モデルを用いて敵の摂動を除去する防衛方法の分類である。
そこで我々は,拡散モデルを用いたDiffPureを提案する。
提案手法は,現在の対人訓練および対人浄化方法よりも優れ,最先端の成果を達成する。
論文 参考訳(メタデータ) (2022-05-16T06:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。