論文の概要: CE-SDWV: Effective and Efficient Concept Erasure for Text-to-Image Diffusion Models via a Semantic-Driven Word Vocabulary
- arxiv url: http://arxiv.org/abs/2501.15562v1
- Date: Sun, 26 Jan 2025 15:39:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:59:08.771865
- Title: CE-SDWV: Effective and Efficient Concept Erasure for Text-to-Image Diffusion Models via a Semantic-Driven Word Vocabulary
- Title(参考訳): CE-SDWV:意味駆動型単語語彙を用いたテキスト・画像拡散モデルの有効かつ効率的な概念消去
- Authors: Jiahang Tu, Qian Feng, Chufan Chen, Jiahua Dong, Hanbin Zhao, Chao Zhang, Hui Qian,
- Abstract要約: 大規模テキスト・ツー・イメージ(T2I)拡散モデルは、様々な概念に関する顕著な生成性能を達成している。
実際には、プライバシーと安全性の制限により、NSFW(Not Safe For Work)の概念に関する生成能力は望ましくない。
テキスト意味空間におけるT2I拡散モデルのターゲット概念を除去するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.677968878628576
- License:
- Abstract: Large-scale text-to-image (T2I) diffusion models have achieved remarkable generative performance about various concepts. With the limitation of privacy and safety in practice, the generative capability concerning NSFW (Not Safe For Work) concepts is undesirable, e.g., producing sexually explicit photos, and licensed images. The concept erasure task for T2I diffusion models has attracted considerable attention and requires an effective and efficient method. To achieve this goal, we propose a CE-SDWV framework, which removes the target concepts (e.g., NSFW concepts) of T2I diffusion models in the text semantic space by only adjusting the text condition tokens and does not need to re-train the original T2I diffusion model's weights. Specifically, our framework first builds a target concept-related word vocabulary to enhance the representation of the target concepts within the text semantic space, and then utilizes an adaptive semantic component suppression strategy to ablate the target concept-related semantic information in the text condition tokens. To further adapt the above text condition tokens to the original image semantic space, we propose an end-to-end gradient-orthogonal token optimization strategy. Extensive experiments on I2P and UnlearnCanvas benchmarks demonstrate the effectiveness and efficiency of our method.
- Abstract(参考訳): 大規模テキスト・ツー・イメージ(T2I)拡散モデルは、様々な概念に関する顕著な生成性能を達成している。
実際には、プライバシーと安全性の制限により、NSFW(Not Safe For Work)の概念に関する生成能力は望ましくない。
T2I拡散モデルの概念消去タスクは注目され、効率的かつ効率的な方法が必要である。
この目的を達成するために,テキスト条件トークンのみを調整することでテキスト意味空間におけるT2I拡散モデルのターゲット概念(例えば,NSFWの概念)を除去し,元のT2I拡散モデルの重みを再学習する必要がないCE-SDWVフレームワークを提案する。
具体的には、まず、テキスト意味空間内のターゲット概念の表現を強化するために、ターゲット概念関連単語語彙を構築し、その後、適応的なセマンティックコンポーネント抑圧戦略を用いて、ターゲット概念関連意味情報をテキスト条件トークンにアブレーションする。
上記のテキスト条件トークンを元の画像意味空間にさらに適応させるために、エンドツーエンドの勾配-直交トークン最適化戦略を提案する。
I2PとUnlearnCanvasベンチマークの大規模な実験により,本手法の有効性と効率が示された。
関連論文リスト
- Enhancing Cross-Prompt Transferability in Vision-Language Models through Contextual Injection of Target Tokens [28.356269620160937]
我々は、勾配に基づく摂動を利用して、ターゲットトークンを視覚的・テキスト的両方の文脈に注入するコンテキストインジェクション攻撃(CIA)を提案する。
CIAは敵画像のクロスプロンプト転送性を高める。
論文 参考訳(メタデータ) (2024-06-19T07:32:55Z) - Non-confusing Generation of Customized Concepts in Diffusion Models [135.4385383284657]
テキスト誘導拡散モデル(TGDM)を用いた合成概念生成における概念間視覚混乱の共通課題に取り組む。
既存のカスタマイズされた生成方法は、第2ステージの微調整のみに焦点を当て、第1ステージを見下ろしている。
本稿では,CLIF(CLIF)と呼ばれる単純かつ効果的な画像言語微調整法を提案する。
論文 参考訳(メタデータ) (2024-05-11T05:01:53Z) - Prompt Optimizer of Text-to-Image Diffusion Models for Abstract Concept Understanding [9.787025432074978]
本稿では,Pmpt for Abstract Concepts (POAC)を導入し,テキスト・画像拡散モデルの性能向上を図る。
本稿では,事前学習した言語モデルから算出したPrompt Language Model (PLM)を提案する。
本フレームワークでは, 安定拡散モデルと最適化プロンプトによる画像のアライメントに着目し, 強化学習(RL)に基づく最適化戦略を採用している。
論文 参考訳(メタデータ) (2024-04-17T17:38:56Z) - DreamMatcher: Appearance Matching Self-Attention for Semantically-Consistent Text-to-Image Personalization [31.960807999301196]
本稿では,T2Iパーソナライゼーションをセマンティックマッチングとして再構成するDreamMatcherという新しいプラグイン手法を提案する。
具体的には、DreamMatcherはターゲットの値をセマンティックマッチングで整列された参照値に置き換えるが、構造パスは変わらない。
また、ターゲットプロンプトによって導入された無関係領域からパーソナライズされた概念を分離するための意味一貫性マスキング戦略を導入する。
論文 参考訳(メタデータ) (2024-02-15T09:21:16Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z) - Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image
Models [59.094601993993535]
テキスト・ツー・イメージ(T2I)のパーソナライズにより、ユーザーは自然言語のプロンプトに自身の視覚的概念を組み合わせることができる。
既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。
個人化された概念に関する特別なデータセットや事前情報を必要としないドメインに依存しない手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T17:46:42Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Ablating Concepts in Text-to-Image Diffusion Models [57.9371041022838]
大規模テキスト・画像拡散モデルでは、強力な構成能力を持つ高忠実度画像を生成することができる。
これらのモデルは典型的には膨大な量のインターネットデータに基づいて訓練されており、しばしば著作権のある資料、ライセンスされた画像、個人写真を含んでいる。
本稿では,事前訓練されたモデルにおいて,目標概念の生成を防止し,効率的に概念を宣言する手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。