論文の概要: Erasing Concepts from Diffusion Models
- arxiv url: http://arxiv.org/abs/2303.07345v3
- Date: Wed, 21 Jun 2023 01:51:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 17:35:26.632082
- Title: Erasing Concepts from Diffusion Models
- Title(参考訳): 拡散モデルによる概念の消去
- Authors: Rohit Gandikota, Joanna Materzynska, Jaden Fiotto-Kaufman, David Bau
- Abstract要約: 近年のテキストと画像の拡散の進展により,モデルの重みから特定の概念を消去する研究が進められている。
本研究では,事前学習した拡散モデルから視覚概念を消去できる微調整手法を提案する。
我々は,性的に明示的な内容を取り除き,その効果を実証する従来のアプローチに対して,本手法をベンチマークした。
- 参考スコア(独自算出の注目度): 11.29958155597398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by recent advancements in text-to-image diffusion, we study erasure
of specific concepts from the model's weights. While Stable Diffusion has shown
promise in producing explicit or realistic artwork, it has raised concerns
regarding its potential for misuse. We propose a fine-tuning method that can
erase a visual concept from a pre-trained diffusion model, given only the name
of the style and using negative guidance as a teacher. We benchmark our method
against previous approaches that remove sexually explicit content and
demonstrate its effectiveness, performing on par with Safe Latent Diffusion and
censored training. To evaluate artistic style removal, we conduct experiments
erasing five modern artists from the network and conduct a user study to assess
the human perception of the removed styles. Unlike previous methods, our
approach can remove concepts from a diffusion model permanently rather than
modifying the output at the inference time, so it cannot be circumvented even
if a user has access to model weights. Our code, data, and results are
available at https://erasing.baulab.info/
- Abstract(参考訳): 近年のテキストと画像の拡散の進展により,モデルの重みから特定の概念を消去する研究が進められている。
安定拡散は、明示的あるいは現実的なアートワークを作るという約束を示す一方で、誤用の可能性についての懸念を提起している。
そこで本稿では,スタイル名のみを考慮し,教師として負の指導を用いて,事前学習した拡散モデルから視覚概念を消去できる微調整手法を提案する。
我々は,性的に明示的な内容を取り除き,その効果を実証する従来の手法と比較し,Safe Latent Diffusionや検閲トレーニングと同等の性能を示す。
芸術的スタイルの除去を評価するため,ネットワークから5人の現代アーティストを消去する実験を行い,除去されたスタイルの人間の知覚を評価するためにユーザスタディを実施している。
従来の手法とは異なり,提案手法では,推定時に出力を変更するのではなく,拡散モデルから概念を永久的に取り除くことができるため,ユーザがモデル重み付けにアクセスしても回避できない。
私たちのコード、データ、結果はhttps://erasing.baulab.info/で閲覧できます。
関連論文リスト
- Suppress Content Shift: Better Diffusion Features via Off-the-Shelf Generation Techniques [119.02857688205295]
拡散機能は、コンテンツシフトと呼ばれる隠れた、普遍的な現象によって妨げられていることがわかりました。
本稿では,拡散モデルに固有の特徴として内容変化の原因を見いだし,拡散特性にこの現象が存在することを示唆する。
本稿では,本手法の有効性を効果的に評価し,提案手法の実装を行うための実践的ガイドラインであるGATEを提案する。
論文 参考訳(メタデータ) (2024-10-09T09:43:36Z) - Score Forgetting Distillation: A Swift, Data-Free Method for Machine Unlearning in Diffusion Models [63.43422118066493]
マシン・アンラーニング(MU)は安全でセキュアで信頼性の高いGenAIモデルを開発する上で重要な基盤である。
従来のMUメソッドは、しばしば厳密な仮定に依存し、実際のデータへのアクセスを必要とする。
本稿では,拡散モデルにおいて望ましくない情報を忘れることを促進する革新的なMUアプローチであるScore Forgetting Distillation (SFD)を紹介する。
論文 参考訳(メタデータ) (2024-09-17T14:12:50Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - Pruning for Robust Concept Erasing in Diffusion Models [27.67237515704348]
概念消去のための新しいプルーニングベースの戦略を導入する。
本手法は, 除去対象概念に関連する重要なパラメータを選択的に抽出し, 概念関連ニューロンの感度を低下させる。
実験の結果, 逆入力に抵抗するモデルの能力は著しく向上した。
論文 参考訳(メタデータ) (2024-05-26T11:42:20Z) - Removing Undesirable Concepts in Text-to-Image Diffusion Models with Learnable Prompts [23.04942433104886]
本稿では,学習可能なプロンプトをモジュールに組み込むことにより,テキストから画像への拡散モデルから望ましくない概念を除去する手法を提案する。
この学習可能なプロンプトは追加記憶として働き、望ましくない概念の知識を捉える。
本研究では, 安定拡散モデルにおける本手法の有効性を実証し, 最先端消去法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-18T23:42:04Z) - Receler: Reliable Concept Erasing of Text-to-Image Diffusion Models via Lightweight Erasers [24.64639078273091]
テキストから画像への拡散モデルにおける概念消去は、対象概念に関連する画像の生成から事前学習された拡散モデルを無効にすることを目的としている。
軽量エローザ(レセラー)による信頼性概念消去の提案
論文 参考訳(メタデータ) (2023-11-29T15:19:49Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z) - Censored Sampling of Diffusion Models Using 3 Minutes of Human Feedback [16.202736672788745]
我々は、最小限のフィードバックに基づいて訓練された報酬モデルを用いて、事前訓練された拡散モデルを用いて検閲された世代を提示する。
人間のフィードバック効率を極端に向上させることができ、ほんの数分の人間のフィードバックで生成されたラベルが十分であることを示す。
論文 参考訳(メタデータ) (2023-07-06T04:45:14Z) - Training Diffusion Models with Reinforcement Learning [82.29328477109826]
拡散モデルは、ログのような目的に近似して訓練される。
本稿では,下流目的のための拡散モデルを直接最適化するための強化学習手法について検討する。
本稿では,多段階決定問題としてデノベーションを行うことによって,ポリシー勾配アルゴリズムのクラスを実現する方法について述べる。
論文 参考訳(メタデータ) (2023-05-22T17:57:41Z) - How to Backdoor Diffusion Models? [74.43215520371506]
本稿では,バックドア攻撃に対する拡散モデルの堅牢性に関する最初の研究について述べる。
我々は,バックドアインプラントのモデルトレーニング中に拡散過程を侵害する新たな攻撃フレームワークであるBadDiffusionを提案する。
本研究の結果は,拡散モデルの誤用や潜在的なリスクへの注意を呼び起こす。
論文 参考訳(メタデータ) (2022-12-11T03:44:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。