論文の概要: Isolated Diffusion: Optimizing Multi-Concept Text-to-Image Generation Training-Freely with Isolated Diffusion Guidance
- arxiv url: http://arxiv.org/abs/2403.16954v1
- Date: Mon, 25 Mar 2024 17:16:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 20:24:47.963573
- Title: Isolated Diffusion: Optimizing Multi-Concept Text-to-Image Generation Training-Freely with Isolated Diffusion Guidance
- Title(参考訳): 分離拡散:分離拡散誘導による多概念テキスト画像生成訓練の最適化
- Authors: Jingyuan Zhu, Huimin Ma, Jiansheng Chen, Jian Yuan,
- Abstract要約: 本稿では,テキストと画像の拡散モデルに対して,複雑な場面における各主題間の相互干渉に対処するための一般的なアプローチを提案する。
本稿では,各アタッチメントを対応する対象に分割したテキストプロンプトで個別に結合することを提案する。
そして、各被験者を個別にテキストプロンプトで分離・再合成し、相互干渉を避ける。
- 参考スコア(独自算出の注目度): 19.221431052643222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale text-to-image diffusion models have achieved great success in synthesizing high-quality and diverse images given target text prompts. Despite the revolutionary image generation ability, current state-of-the-art models still struggle to deal with multi-concept generation accurately in many cases. This phenomenon is known as ``concept bleeding" and displays as the unexpected overlapping or merging of various concepts. This paper presents a general approach for text-to-image diffusion models to address the mutual interference between different subjects and their attachments in complex scenes, pursuing better text-image consistency. The core idea is to isolate the synthesizing processes of different concepts. We propose to bind each attachment to corresponding subjects separately with split text prompts. Besides, we introduce a revision method to fix the concept bleeding problem in multi-subject synthesis. We first depend on pre-trained object detection and segmentation models to obtain the layouts of subjects. Then we isolate and resynthesize each subject individually with corresponding text prompts to avoid mutual interference. Overall, we achieve a training-free strategy, named Isolated Diffusion, to optimize multi-concept text-to-image synthesis. It is compatible with the latest Stable Diffusion XL (SDXL) and prior Stable Diffusion (SD) models. We compare our approach with alternative methods using a variety of multi-concept text prompts and demonstrate its effectiveness with clear advantages in text-image consistency and user study.
- Abstract(参考訳): 大規模テキスト・画像拡散モデルは、ターゲットテキストプロンプトが与えられた高品質で多様な画像の合成に成功している。
革命的な画像生成能力にもかかわらず、現在の最先端モデルは、多くの場合、正確にマルチコンセプト生成を扱うのに苦戦している。
この現象は「概念出血」と呼ばれ、様々な概念の予期せぬ重複や融合として表される。
本稿では,テキストと画像の拡散モデルを用いて,複雑な場面における相互干渉に対処し,テキストと画像の整合性を向上する手法を提案する。
中心となる考え方は、異なる概念の合成過程を分離することである。
本稿では,各アタッチメントを対応する対象に分割したテキストプロンプトで個別に結合することを提案する。
さらに,多目的合成における出血問題を修正するための修正手法を提案する。
まず,事前学習対象検出とセグメンテーションモデルを用いて,対象物のレイアウトを求める。
そして、各被験者を個別にテキストプロンプトで分離・再合成し、相互干渉を避ける。
全体として、多概念テキスト・画像合成を最適化するために、Isolated Diffusionと呼ばれるトレーニング不要の戦略を実現する。
最新の安定拡散XL(SDXL)と以前の安定拡散(SD)モデルと互換性がある。
提案手法は,多様なマルチコンセプトテキストプロンプトを用いた代替手法と比較し,テキストイメージの整合性とユーザスタディにおいて,その有効性を示す。
関連論文リスト
- MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [6.4680449907623006]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Textual Localization: Decomposing Multi-concept Images for
Subject-Driven Text-to-Image Generation [5.107886283951882]
マルチコンセプト入力画像を扱うための局所化テキスト・ツー・イメージモデルを提案する。
提案手法は,複数概念を分解するための新しいクロスアテンションガイダンスを組み込んだものである。
特に,本手法は,生成した画像の目標概念と整合した横断アテンションマップを生成する。
論文 参考訳(メタデータ) (2024-02-15T14:19:42Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z) - The Hidden Language of Diffusion Models [70.03691458189604]
本稿では,テキスト概念の内部表現を拡散モデルで解釈する新しい手法であるConceptorを提案する。
概念間の驚くべき視覚的つながりは、それらのテキスト意味論を超越している。
我々はまた、模範的、偏見、名高い芸術様式、あるいは複数の意味の同時融合に依存する概念も発見する。
論文 参考訳(メタデータ) (2023-06-01T17:57:08Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Recurrent Affine Transformation for Text-to-image Synthesis [5.256132101498471]
既存の方法は通常、適切なテキスト情報を分離された融合ブロックで合成プロセスに適応的に融合する。
本稿では、全ての融合ブロックをリカレントニューラルネットワークに接続し、長期的依存をモデル化する、ジェネレーティブ・アドリラル・ネットワークのためのリカレントアフィン変換(RAT)を提案する。
テキスト記述は、一致する画像領域を認識して、より関連性の高い画像コンテンツを合成するためにジェネレータを監督する。
論文 参考訳(メタデータ) (2022-04-22T03:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。