論文の概要: Erasing Concepts from Diffusion Models
- arxiv url: http://arxiv.org/abs/2303.07345v3
- Date: Wed, 21 Jun 2023 01:51:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 17:35:26.632082
- Title: Erasing Concepts from Diffusion Models
- Title(参考訳): 拡散モデルによる概念の消去
- Authors: Rohit Gandikota, Joanna Materzynska, Jaden Fiotto-Kaufman, David Bau
- Abstract要約: 近年のテキストと画像の拡散の進展により,モデルの重みから特定の概念を消去する研究が進められている。
本研究では,事前学習した拡散モデルから視覚概念を消去できる微調整手法を提案する。
我々は,性的に明示的な内容を取り除き,その効果を実証する従来のアプローチに対して,本手法をベンチマークした。
- 参考スコア(独自算出の注目度): 11.29958155597398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by recent advancements in text-to-image diffusion, we study erasure
of specific concepts from the model's weights. While Stable Diffusion has shown
promise in producing explicit or realistic artwork, it has raised concerns
regarding its potential for misuse. We propose a fine-tuning method that can
erase a visual concept from a pre-trained diffusion model, given only the name
of the style and using negative guidance as a teacher. We benchmark our method
against previous approaches that remove sexually explicit content and
demonstrate its effectiveness, performing on par with Safe Latent Diffusion and
censored training. To evaluate artistic style removal, we conduct experiments
erasing five modern artists from the network and conduct a user study to assess
the human perception of the removed styles. Unlike previous methods, our
approach can remove concepts from a diffusion model permanently rather than
modifying the output at the inference time, so it cannot be circumvented even
if a user has access to model weights. Our code, data, and results are
available at https://erasing.baulab.info/
- Abstract(参考訳): 近年のテキストと画像の拡散の進展により,モデルの重みから特定の概念を消去する研究が進められている。
安定拡散は、明示的あるいは現実的なアートワークを作るという約束を示す一方で、誤用の可能性についての懸念を提起している。
そこで本稿では,スタイル名のみを考慮し,教師として負の指導を用いて,事前学習した拡散モデルから視覚概念を消去できる微調整手法を提案する。
我々は,性的に明示的な内容を取り除き,その効果を実証する従来の手法と比較し,Safe Latent Diffusionや検閲トレーニングと同等の性能を示す。
芸術的スタイルの除去を評価するため,ネットワークから5人の現代アーティストを消去する実験を行い,除去されたスタイルの人間の知覚を評価するためにユーザスタディを実施している。
従来の手法とは異なり,提案手法では,推定時に出力を変更するのではなく,拡散モデルから概念を永久的に取り除くことができるため,ユーザがモデル重み付けにアクセスしても回避できない。
私たちのコード、データ、結果はhttps://erasing.baulab.info/で閲覧できます。
関連論文リスト
- Probing Unlearned Diffusion Models: A Transferable Adversarial Attack Perspective [20.263233740360022]
拡散モデルから概念を消去するアンラーニング手法が開発されている。
本論文は,ブラックボックス環境下での非学習的ロバスト性を探索するために,敵攻撃の伝達可能性を活用することを目的とする。
具体的には、異なる未学習モデル間での移動が可能な逆埋め込みを探索するために、逆探索戦略を用いる。
論文 参考訳(メタデータ) (2024-04-30T09:14:54Z) - Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models [58.065255696601604]
拡散モデルの合成特性を使い、単一の画像生成において複数のプロンプトを利用することができる。
本論では, 画像生成の可能なすべてのアプローチを, 相手が適用可能な拡散モデルで検討することが重要であると論じる。
論文 参考訳(メタデータ) (2024-04-21T16:35:16Z) - Removing Undesirable Concepts in Text-to-Image Generative Models with Learnable Prompts [23.04942433104886]
テキストから画像への生成モデルから望ましくない概念を除去する新しい手法を提案する。
この学習可能なプロンプトは、望ましくない概念の知識をそれに移すための追加記憶として機能する。
安定拡散モデルにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T23:42:04Z) - Receler: Reliable Concept Erasing of Text-to-Image Diffusion Models via Lightweight Erasers [24.64639078273091]
テキストから画像への拡散モデルにおける概念消去は、対象概念に関連する画像の生成から事前学習された拡散モデルを無効にすることを目的としている。
軽量エローザ(レセラー)による信頼性概念消去の提案
論文 参考訳(メタデータ) (2023-11-29T15:19:49Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z) - Censored Sampling of Diffusion Models Using 3 Minutes of Human Feedback [16.202736672788745]
我々は、最小限のフィードバックに基づいて訓練された報酬モデルを用いて、事前訓練された拡散モデルを用いて検閲された世代を提示する。
人間のフィードバック効率を極端に向上させることができ、ほんの数分の人間のフィードバックで生成されたラベルが十分であることを示す。
論文 参考訳(メタデータ) (2023-07-06T04:45:14Z) - LEACE: Perfect linear concept erasure in closed form [103.61624393221447]
概念消去は、特定の特徴を表現から削除することを目的としている。
LEAst-squares Concept Erasure (LEACE) は、線形分類器が可能な限り少ない表現で概念を検出することを確実に防止する閉形式手法である。
LEACEを"concept scrubbing"と呼ばれる新しい手法で大規模言語モデルに適用し、ネットワーク内の各層からターゲット概念情報を消去する。
論文 参考訳(メタデータ) (2023-06-06T16:07:24Z) - Training Diffusion Models with Reinforcement Learning [82.29328477109826]
拡散モデルは、ログのような目的に近似して訓練される。
本稿では,下流目的のための拡散モデルを直接最適化するための強化学習手法について検討する。
本稿では,多段階決定問題としてデノベーションを行うことによって,ポリシー勾配アルゴリズムのクラスを実現する方法について述べる。
論文 参考訳(メタデータ) (2023-05-22T17:57:41Z) - How to Backdoor Diffusion Models? [74.43215520371506]
本稿では,バックドア攻撃に対する拡散モデルの堅牢性に関する最初の研究について述べる。
我々は,バックドアインプラントのモデルトレーニング中に拡散過程を侵害する新たな攻撃フレームワークであるBadDiffusionを提案する。
本研究の結果は,拡散モデルの誤用や潜在的なリスクへの注意を呼び起こす。
論文 参考訳(メタデータ) (2022-12-11T03:44:38Z) - Diffusion Models for Adversarial Purification [69.1882221038846]
対人浄化(Adrial purification)とは、生成モデルを用いて敵の摂動を除去する防衛方法の分類である。
そこで我々は,拡散モデルを用いたDiffPureを提案する。
提案手法は,現在の対人訓練および対人浄化方法よりも優れ,最先端の成果を達成する。
論文 参考訳(メタデータ) (2022-05-16T06:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。