論文の概要: Dark Miner: Defend against undesired generation for text-to-image diffusion models
- arxiv url: http://arxiv.org/abs/2409.17682v2
- Date: Mon, 25 Nov 2024 13:31:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:15:19.496736
- Title: Dark Miner: Defend against undesired generation for text-to-image diffusion models
- Title(参考訳): Dark Miner: テキスト・画像拡散モデルにおける望ましくない生成に対する防御
- Authors: Zheling Meng, Bo Peng, Xiaochuan Jin, Yue Jiang, Jing Dong, Wei Wang,
- Abstract要約: 我々は消去タスクを分析し、既存の手法では不要な生成の総確率の最小化を保証できないことを指摘した。
我々は、採掘、検証、回避を含む3段階のプロセスであるダークマイナーを提案する。
本手法は, 従来手法と比較して, 特に複数対逆攻撃において, 消去効果と防御効果が向上する。
- 参考スコア(独自算出の注目度): 13.86760397597925
- License:
- Abstract: Text-to-image diffusion models have been demonstrated with undesired generation due to unfiltered large-scale training data, such as sexual images and copyrights, necessitating the erasure of undesired concepts. Most existing methods focus on modifying the generation probabilities conditioned on the texts containing target concepts. However, they fail to guarantee the desired generation of texts unseen in the training phase, especially for the adversarial texts from malicious attacks. In this paper, we analyze the erasure task and point out that existing methods cannot guarantee the minimization of the total probabilities of undesired generation. To tackle this problem, we propose Dark Miner. It entails a recurring three-stage process that comprises mining, verifying, and circumventing. This method greedily mines embeddings with maximum generation probabilities of target concepts and more effectively reduces their generation. In the experiments, we evaluate its performance on the inappropriateness, object, and style concepts. Compared with the previous methods, our method achieves better erasure and defense results, especially under multiple adversarial attacks, while preserving the native generation capability of the models. Our code will be available at https://github.com/RichardSunnyMeng/DarkMiner-offical-codes.
- Abstract(参考訳): テキスト・ツー・イメージの拡散モデルは、性的イメージや著作権などの大規模なトレーニングデータによって、望ましくない概念の消去を必要とするため、望ましくない世代で実証されてきた。
既存のほとんどの手法は、ターゲット概念を含むテキストに条件付けされた生成確率を変更することに重点を置いている。
しかし、トレーニング段階では、特に悪意のある攻撃による敵対的なテキストに対して、望まれるテキストの生成を保証できない。
本稿では,消去タスクを分析し,既存の手法では不要な生成の総確率の最小化を保証できないことを指摘する。
この問題に対処するため、我々はダークマイナーを提案する。
採掘、検証、回避を含む3段階のプロセスが繰り返される。
この方法は、ターゲット概念の最大生成確率の埋め込みを欲求的にマイニングし、それらの生成をより効果的に削減する。
実験では,不適切性,対象性,スタイル概念について評価した。
従来の手法と比較して,本手法は,モデルのネイティブ生成能力を保ちながら,特に複数の敵攻撃下での消去と防御の精度の向上を実現している。
私たちのコードはhttps://github.com/RichardSunnyMeng/DarkMiner-offical-codesで利用可能です。
関連論文リスト
- Concept Steerers: Leveraging K-Sparse Autoencoders for Controllable Generations [10.86252546314626]
テキスト・ツー・イメージ生成モデルは、敵対的な攻撃をしがちであり、不安全で非倫理的なコンテンツを不注意に生成する。
我々は,k-スパースオートエンコーダ(k-SAE)を活用して,効率的な,解釈可能な概念操作を実現する新しいフレームワークを提案する。
提案手法は, 安全でない概念除去において$mathbf20.01%$の改善を実現し, スタイル操作に有効であり, 現在の最先端技術よりも$mathbfsim5$x高速である。
論文 参考訳(メタデータ) (2025-01-31T11:52:47Z) - Continuous Concepts Removal in Text-to-image Diffusion Models [27.262721132177845]
著作権を侵害したり、乱暴な主題を描写するコンテンツを作成するためのテキスト・ツー・イメージモデルの可能性について懸念が高まっている。
本稿では,知識蒸留パラダイムを設計したCCRTという新しい手法を提案する。
一連のテキストプロンプトを使用することで、連続的な概念削除プロセス中のテキストイメージのアライメント動作を制限します。
論文 参考訳(メタデータ) (2024-11-30T20:40:10Z) - Safe Text-to-Image Generation: Simply Sanitize the Prompt Embedding [13.481343482138888]
視覚に依存しない安全な生成フレームワーク Embedding Sanitizer (ES) を提案する。
ESは、迅速な埋め込みから不適切な概念を消去することに焦点を当て、安全な生成のためにモデルをガイドするために、衛生的な埋め込みを使用する。
ESは、生成品質を維持しつつ、解釈性と制御性の観点から既存の安全ガードを著しく上回っている。
論文 参考訳(メタデータ) (2024-11-15T16:29:02Z) - Chain-of-Jailbreak Attack for Image Generation Models via Editing Step by Step [62.82566977845765]
ステップバイステップの編集プロセスを通じて画像生成モデルを損なう、Chain-of-Jailbreak (CoJ)アタックと呼ばれる新しいジェイルブレイク手法を提案する。
我々のCoJ攻撃手法は、60%以上のケースでモデルの保護を回避できる。
また,効果的なプロンプトベース手法であるThink Twice Promptingを提案する。
論文 参考訳(メタデータ) (2024-10-04T19:04:43Z) - Avoiding Generative Model Writer's Block With Embedding Nudging [8.3196702956302]
我々は、遅延拡散画像生成モデルと、それらがオーバーヘッドに制限された類似画像を生成しながら、それらが特定の画像を生成するのを防ぐ方法に焦点をあてる。
本手法は,修正されていないモデルと同等の画質と関連性を保ちながら,記憶されたトレーニング画像の生成を効果的に防止する。
論文 参考訳(メタデータ) (2024-08-28T00:07:51Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models [79.50701155336198]
textbfForget-Me-Notは、適切に設定されたテキスト・ツー・イメージモデルから、指定されたID、オブジェクト、スタイルを30秒で安全に削除するように設計されている。
我々は,Forget-Me-Notが,モデルの性能を他の概念に保ちながら,ターゲットとなる概念を効果的に排除できることを実証した。
また、Stable Diffusionの軽量モデルパッチとして適応することができ、コンセプト操作と便利な配布を可能にしている。
論文 参考訳(メタデータ) (2023-03-30T17:58:11Z) - Diffusion Models for Adversarial Purification [69.1882221038846]
対人浄化(Adrial purification)とは、生成モデルを用いて敵の摂動を除去する防衛方法の分類である。
そこで我々は,拡散モデルを用いたDiffPureを提案する。
提案手法は,現在の対人訓練および対人浄化方法よりも優れ,最先端の成果を達成する。
論文 参考訳(メタデータ) (2022-05-16T06:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。