論文の概要: ConceptPrune: Concept Editing in Diffusion Models via Skilled Neuron Pruning
- arxiv url: http://arxiv.org/abs/2405.19237v1
- Date: Wed, 29 May 2024 16:19:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 16:21:56.705129
- Title: ConceptPrune: Concept Editing in Diffusion Models via Skilled Neuron Pruning
- Title(参考訳): ConceptPrune: 熟練ニューロンプルーニングによる拡散モデルにおける概念編集
- Authors: Ruchika Chavhan, Da Li, Timothy Hospedales,
- Abstract要約: 大規模テキスト・画像拡散モデルでは、印象的な画像生成能力が示されている。
提案するConceptPruneでは,まず,望ましくない概念を生成するための事前学習モデル内の重要な領域を同定する。
芸術的スタイル、ヌード性、オブジェクトの消去、ジェンダーのデバイアスなど、さまざまな概念に対する実験は、ターゲットのコンセプトをごくわずかに刈って効率よく消去できることを実証している。
- 参考スコア(独自算出の注目度): 10.201633236997104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large-scale text-to-image diffusion models have demonstrated impressive image-generation capabilities, there are significant concerns about their potential misuse for generating unsafe content, violating copyright, and perpetuating societal biases. Recently, the text-to-image generation community has begun addressing these concerns by editing or unlearning undesired concepts from pre-trained models. However, these methods often involve data-intensive and inefficient fine-tuning or utilize various forms of token remapping, rendering them susceptible to adversarial jailbreaks. In this paper, we present a simple and effective training-free approach, ConceptPrune, wherein we first identify critical regions within pre-trained models responsible for generating undesirable concepts, thereby facilitating straightforward concept unlearning via weight pruning. Experiments across a range of concepts including artistic styles, nudity, object erasure, and gender debiasing demonstrate that target concepts can be efficiently erased by pruning a tiny fraction, approximately 0.12% of total weights, enabling multi-concept erasure and robustness against various white-box and black-box adversarial attacks.
- Abstract(参考訳): 大規模なテキスト・画像拡散モデルは印象的な画像生成能力を示しているが、安全でないコンテンツを生成し、著作権を侵害し、社会的偏見を持続させる可能性について大きな懸念がある。
近年,テキスト・ツー・イメージ・ジェネレーション・コミュニティは,事前学習されたモデルから望ましくない概念を編集あるいは未学習にすることで,これらの問題に対処し始めている。
しかし、これらの手法は、しばしばデータ集約的で非効率な微調整や様々な形のトークン再マッピングを伴い、敵のジェイルブレイクの影響を受けやすい。
本稿では、まず、望ましくない概念を生成するための事前学習モデル内で重要な領域を識別し、ウェイトプルーニングによる素直な概念学習を容易にする、シンプルで効果的なトレーニング不要なアプローチであるConceptPruneを提案する。
芸術的スタイル、ヌード性、オブジェクトの消去、ジェンダーのデバイアスなどを含む様々な概念にわたる実験により、ターゲットのコンセプトは、全体の重量の0.12%のごく一部を刈り上げ、様々なホワイトボックスやブラックボックスの敵攻撃に対してマルチコンセプションの消去と堅牢性を可能にすることによって、効率的に消去できることを示した。
関連論文リスト
- Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Safeguard Text-to-Image Diffusion Models with Human Feedback Inversion [51.931083971448885]
本稿では,Human Feedback Inversion (HFI) というフレームワークを提案する。
実験の結果,画像品質を維持しながら,好ましくないコンテンツ生成を著しく削減し,公的な領域におけるAIの倫理的展開に寄与することが示された。
論文 参考訳(メタデータ) (2024-07-17T05:21:41Z) - Pruning for Robust Concept Erasing in Diffusion Models [27.67237515704348]
概念消去のための新しいプルーニングベースの戦略を導入する。
本手法は, 除去対象概念に関連する重要なパラメータを選択的に抽出し, 概念関連ニューロンの感度を低下させる。
実験の結果, 逆入力に抵抗するモデルの能力は著しく向上した。
論文 参考訳(メタデータ) (2024-05-26T11:42:20Z) - Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient [20.091446060893638]
本稿では,拡散モデルにおける非学習概念のための概念領域補正フレームワークを提案する。
直感的概念とアンカー的概念の出力領域を敵対的訓練によって整合させることにより、未学習結果の一般化性を高める。
論文 参考訳(メタデータ) (2024-05-24T07:47:36Z) - Separable Multi-Concept Erasure from Diffusion Models [52.51972530398691]
大規模拡散モデルから安全でない概念を排除するために,分離可能なマルチコンセプト消去器(SepME)を提案する。
後者は最適化可能なモデルウェイトを分離し、各ウェイトインクリメントは特定の概念の消去に対応する。
広範囲にわたる実験は, 概念の排除, モデル性能の保存, 各種概念の消去・回復における柔軟性の確保に, アプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-03T11:10:57Z) - Receler: Reliable Concept Erasing of Text-to-Image Diffusion Models via Lightweight Erasers [24.64639078273091]
テキストから画像への拡散モデルにおける概念消去は、対象概念に関連する画像の生成から事前学習された拡散モデルを無効にすることを目的としている。
軽量エローザ(レセラー)による信頼性概念消去の提案
論文 参考訳(メタデータ) (2023-11-29T15:19:49Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z) - Circumventing Concept Erasure Methods For Text-to-Image Generative
Models [26.804057000265434]
テキストから画像への生成モデルは、非常に幅広い概念のフォトリアリスティック画像を生成することができる。
これらのモデルには、性的に明示的なコンテンツを特徴とする画像を生成する可能性など、多くの欠点がある。
テキスト・ツー・イメージ・モデルからセンシティブな概念を「取り除く」ための様々な手法が提案されている。
論文 参考訳(メタデータ) (2023-08-03T02:34:01Z) - Ablating Concepts in Text-to-Image Diffusion Models [57.9371041022838]
大規模テキスト・画像拡散モデルでは、強力な構成能力を持つ高忠実度画像を生成することができる。
これらのモデルは典型的には膨大な量のインターネットデータに基づいて訓練されており、しばしば著作権のある資料、ライセンスされた画像、個人写真を含んでいる。
本稿では,事前訓練されたモデルにおいて,目標概念の生成を防止し,効率的に概念を宣言する手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。