論文の概要: Prompt Sliders for Fine-Grained Control, Editing and Erasing of Concepts in Diffusion Models
- arxiv url: http://arxiv.org/abs/2409.16535v1
- Date: Wed, 25 Sep 2024 01:02:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 06:06:51.269212
- Title: Prompt Sliders for Fine-Grained Control, Editing and Erasing of Concepts in Diffusion Models
- Title(参考訳): 拡散モデルにおける概念の微粒化, 編集, 消去のためのプロンプトスライダ
- Authors: Deepak Sridhar, Nuno Vasconcelos,
- Abstract要約: 概念スライダは、学習概念(属性/オブジェクト)によるきめ細かい画像制御と編集方法を導入した
このアプローチは、学習概念に使用されるローランドアダプタ(LoRA)のロードとアンロードにより、パラメータを追加し、推論時間を増加させる。
そこで本研究では,テキストエンコーダを共有するモデル間で一般化可能な,テキスト埋め込みによる概念学習のための簡単なテキストインバージョン手法を提案する。
- 参考スコア(独自算出の注目度): 53.385754347812835
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion models have recently surpassed GANs in image synthesis and editing, offering superior image quality and diversity. However, achieving precise control over attributes in generated images remains a challenge. Concept Sliders introduced a method for fine-grained image control and editing by learning concepts (attributes/objects). However, this approach adds parameters and increases inference time due to the loading and unloading of Low-Rank Adapters (LoRAs) used for learning concepts. These adapters are model-specific and require retraining for different architectures, such as Stable Diffusion (SD) v1.5 and SD-XL. In this paper, we propose a straightforward textual inversion method to learn concepts through text embeddings, which are generalizable across models that share the same text encoder, including different versions of the SD model. We refer to our method as Prompt Sliders. Besides learning new concepts, we also show that Prompt Sliders can be used to erase undesirable concepts such as artistic styles or mature content. Our method is 30% faster than using LoRAs because it eliminates the need to load and unload adapters and introduces no additional parameters aside from the target concept text embedding. Each concept embedding only requires 3KB of storage compared to the 8922KB or more required for each LoRA adapter, making our approach more computationally efficient. Project Page: https://deepaksridhar.github.io/promptsliders.github.io/
- Abstract(参考訳): 拡散モデルは画像合成と編集においてGANを超え、優れた画質と多様性を提供している。
しかし、生成した画像の属性を正確に制御することは依然として困難である。
概念スライダは、学習概念(属性/オブジェクト)によるきめ細かいイメージ制御と編集の手法を導入した。
しかし、このアプローチはパラメータを追加し、学習概念に使用されるローランドアダプタ(LoRA)のロードとアンロードにより、推論時間を増加させる。
これらのアダプタはモデル固有のもので、SD(Stable Diffusion) v1.5 や SD-XL など、異なるアーキテクチャで再トレーニングする必要がある。
本稿では,SDモデルの異なるバージョンを含む同じテキストエンコーダを共有するモデル間で一般化可能な,テキスト埋め込みによる概念学習のための簡単なテキストインバージョン手法を提案する。
我々はこの手法を Prompt Sliders と呼ぶ。
新たな概念を学ぶことに加えて,芸術的スタイルや成熟したコンテンツといった望ましくない概念を消去するために,Prompt Slidersを使用することも示している。
我々の手法はLoRAよりも30%高速で、アダプタのロードとアンロードを不要にし、ターゲットのテキスト埋め込み以外に追加のパラメータを導入しない。
各概念の埋め込みは、8922KB以上のLoRAアダプタと比較して3KBのストレージしか必要としないため、我々のアプローチはより計算効率が良い。
Project Page: https://deepaksridhar.github.io/promptsliders.github.io/
関連論文リスト
- Erasing Concepts from Text-to-Image Diffusion Models with Few-shot Unlearning [0.0]
本稿では,数発のアンラーニングを用いてテキストエンコーダを更新する新しい概念消去手法を提案する。
提案手法は10秒以内に概念を消去し,概念の消去をこれまで以上に容易に行えるようにする。
論文 参考訳(メタデータ) (2024-05-12T14:01:05Z) - Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models [52.894213114914805]
拡散モデルから画像生成における属性を正確に制御できる解釈可能な概念スライダを作成する手法を提案する。
スライダは、プロンプトやサンプル画像の小さなセットを使用して作成される。
本手法は、物体の変形の修復や変形した手の固定など、安定XL拡散における持続的品質問題に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-11-20T18:59:01Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Continual Diffusion: Continual Customization of Text-to-Image Diffusion with C-LoRA [64.10981296843609]
近年のテクスト・ツー・イメージ・モデルの最先端のカスタマイズは,新しい概念が次々に現れると,破滅的な忘れ込みに悩まされることが示されている。
安定拡散モデルのクロスアテンション層における自己規則化低ランク適応を連続的に行う新しい手法であるC-LoRAを提案する。
C-LoRAは、提案したテキスト・ツー・イメージの連続的なカスタマイズ設定のベースラインよりも優れるだけでなく、画像分類のためのリハーサル不要な連続的な学習設定において、新しい最先端の学習を実現することを示します。
論文 参考訳(メタデータ) (2023-04-12T17:59:41Z) - Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文 参考訳(メタデータ) (2023-02-23T18:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。