論文の概要: Erasing Concepts from Diffusion Models
- arxiv url: http://arxiv.org/abs/2303.07345v1
- Date: Mon, 13 Mar 2023 17:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 13:29:41.767966
- Title: Erasing Concepts from Diffusion Models
- Title(参考訳): 拡散モデルによる概念の消去
- Authors: Rohit Gandikota, Joanna Materzynska, Jaden Fiotto-Kaufman, David Bau
- Abstract要約: 近年のテキストと画像の拡散の進展により,モデルの重みから特定の概念を消去する研究が進められている。
本研究では,事前学習した拡散モデルから視覚概念を消去できる微調整手法を提案する。
我々は,性的に明示的な内容を取り除き,その効果を実証する従来のアプローチに対して,本手法をベンチマークした。
- 参考スコア(独自算出の注目度): 11.29958155597398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by recent advancements in text-to-image diffusion, we study erasure
of specific concepts from the model's weights. While Stable Diffusion has shown
promise in producing explicit or realistic artwork, it has raised concerns
regarding its potential for misuse. We propose a fine-tuning method that can
erase a visual concept from a pre-trained diffusion model, given only the name
of the style and using negative guidance as a teacher. We benchmark our method
against previous approaches that remove sexually explicit content and
demonstrate its effectiveness, performing on par with Safe Latent Diffusion and
censored training. To evaluate artistic style removal, we conduct experiments
erasing five modern artists from the network and conduct a user study to assess
the human perception of the removed styles. Unlike previous methods, our
approach can remove concepts from a diffusion model permanently rather than
modifying the output at the inference time, so it cannot be circumvented even
if a user has access to model weights. Our code, data, and results are
available at https://erasing.baulab.info/
- Abstract(参考訳): 近年のテキストと画像の拡散の進展により,モデルの重みから特定の概念を消去する研究が進められている。
安定拡散は、明示的あるいは現実的なアートワークを作るという約束を示す一方で、誤用の可能性についての懸念を提起している。
そこで本稿では,スタイル名のみを考慮し,教師として負の指導を用いて,事前学習した拡散モデルから視覚概念を消去できる微調整手法を提案する。
我々は,性的に明示的な内容を取り除き,その効果を実証する従来の手法と比較し,Safe Latent Diffusionや検閲トレーニングと同等の性能を示す。
芸術的スタイルの除去を評価するため,ネットワークから5人の現代アーティストを消去する実験を行い,除去されたスタイルの人間の知覚を評価するためにユーザスタディを実施している。
従来の手法とは異なり,提案手法では,推定時に出力を変更するのではなく,拡散モデルから概念を永久的に取り除くことができるため,ユーザがモデル重み付けにアクセスしても回避できない。
私たちのコード、データ、結果はhttps://erasing.baulab.info/で閲覧できます。
関連論文リスト
- Receler: Reliable Concept Erasing of Text-to-Image Diffusion Models via Lightweight Erasers [24.64639078273091]
テキストから画像への拡散モデルにおける概念消去は、対象概念に関連する画像の生成から事前学習された拡散モデルを無効にすることを目的としている。
軽量エローザ(レセラー)による信頼性概念消去の提案
論文 参考訳(メタデータ) (2023-11-29T15:19:49Z) - Circumventing Concept Erasure Methods For Text-to-Image Generative
Models [26.804057000265434]
テキストから画像への生成モデルは、非常に幅広い概念のフォトリアリスティック画像を生成することができる。
これらのモデルには、性的に明示的なコンテンツを特徴とする画像を生成する可能性など、多くの欠点がある。
テキスト・ツー・イメージ・モデルからセンシティブな概念を「取り除く」ための様々な手法が提案されている。
論文 参考訳(メタデータ) (2023-08-03T02:34:01Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z) - Measuring the Success of Diffusion Models at Imitating Human Artists [7.007492782620398]
モデルが特定のアーティストを模倣する能力を測定する方法を示す。
コントラスト言語-画像事前訓練(CLIP)エンコーダを用いてゼロショット方式で画像の分類を行う。
また,アーティストの作品のサンプルを,これらの模倣画像と高い統計的信頼性で一致させることができることを示す。
論文 参考訳(メタデータ) (2023-07-08T18:31:25Z) - Censored Sampling of Diffusion Models Using 3 Minutes of Human Feedback [16.202736672788745]
我々は、最小限のフィードバックに基づいて訓練された報酬モデルを用いて、事前訓練された拡散モデルを用いて検閲された世代を提示する。
人間のフィードバック効率を極端に向上させることができ、ほんの数分の人間のフィードバックで生成されたラベルが十分であることを示す。
論文 参考訳(メタデータ) (2023-07-06T04:45:14Z) - LEACE: Perfect linear concept erasure in closed form [103.61624393221447]
概念消去は、特定の特徴を表現から削除することを目的としている。
LEAst-squares Concept Erasure (LEACE) は、線形分類器が可能な限り少ない表現で概念を検出することを確実に防止する閉形式手法である。
LEACEを"concept scrubbing"と呼ばれる新しい手法で大規模言語モデルに適用し、ネットワーク内の各層からターゲット概念情報を消去する。
論文 参考訳(メタデータ) (2023-06-06T16:07:24Z) - Training Diffusion Models with Reinforcement Learning [82.29328477109826]
拡散モデルは、ログのような目的に近似して訓練される。
本稿では,下流目的のための拡散モデルを直接最適化するための強化学習手法について検討する。
本稿では,多段階決定問題としてデノベーションを行うことによって,ポリシー勾配アルゴリズムのクラスを実現する方法について述べる。
論文 参考訳(メタデータ) (2023-05-22T17:57:41Z) - Ablating Concepts in Text-to-Image Diffusion Models [57.9371041022838]
大規模テキスト・画像拡散モデルでは、強力な構成能力を持つ高忠実度画像を生成することができる。
これらのモデルは典型的には膨大な量のインターネットデータに基づいて訓練されており、しばしば著作権のある資料、ライセンスされた画像、個人写真を含んでいる。
本稿では,事前訓練されたモデルにおいて,目標概念の生成を防止し,効率的に概念を宣言する手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T17:59:42Z) - How to Backdoor Diffusion Models? [74.43215520371506]
本稿では,バックドア攻撃に対する拡散モデルの堅牢性に関する最初の研究について述べる。
我々は,バックドアインプラントのモデルトレーニング中に拡散過程を侵害する新たな攻撃フレームワークであるBadDiffusionを提案する。
本研究の結果は,拡散モデルの誤用や潜在的なリスクへの注意を呼び起こす。
論文 参考訳(メタデータ) (2022-12-11T03:44:38Z) - Diffusion Models for Adversarial Purification [69.1882221038846]
対人浄化(Adrial purification)とは、生成モデルを用いて敵の摂動を除去する防衛方法の分類である。
そこで我々は,拡散モデルを用いたDiffPureを提案する。
提案手法は,現在の対人訓練および対人浄化方法よりも優れ,最先端の成果を達成する。
論文 参考訳(メタデータ) (2022-05-16T06:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。