論文の概要: Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2408.03632v1
- Date: Wed, 7 Aug 2024 08:43:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 13:24:06.994009
- Title: Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis
- Title(参考訳): 概念導体:テキスト・画像合成における複数のパーソナライズされた概念のオーケストレーション
- Authors: Zebin Yao, Fangxiang Feng, Ruifan Li, Xiaojie Wang,
- Abstract要約: コンセプトコンダクタは、マルチコンセプトのカスタマイズにおいて、視覚的忠実さと正確なレイアウトを保証するように設計されている。
本稿では,各概念の生成領域を特定するために形状認識マスクを用いた概念注入手法を提案する。
本手法は,様々な概念の組み合わせをサポートし,視覚的に類似した概念を扱う場合でも高い忠実性を維持する。
- 参考スコア(独自算出の注目度): 14.21719970175159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The customization of text-to-image models has seen significant advancements, yet generating multiple personalized concepts remains a challenging task. Current methods struggle with attribute leakage and layout confusion when handling multiple concepts, leading to reduced concept fidelity and semantic consistency. In this work, we introduce a novel training-free framework, Concept Conductor, designed to ensure visual fidelity and correct layout in multi-concept customization. Concept Conductor isolates the sampling processes of multiple custom models to prevent attribute leakage between different concepts and corrects erroneous layouts through self-attention-based spatial guidance. Additionally, we present a concept injection technique that employs shape-aware masks to specify the generation area for each concept. This technique injects the structure and appearance of personalized concepts through feature fusion in the attention layers, ensuring harmony in the final image. Extensive qualitative and quantitative experiments demonstrate that Concept Conductor can consistently generate composite images with accurate layouts while preserving the visual details of each concept. Compared to existing baselines, Concept Conductor shows significant performance improvements. Our method supports the combination of any number of concepts and maintains high fidelity even when dealing with visually similar concepts. The code and models are available at https://github.com/Nihukat/Concept-Conductor.
- Abstract(参考訳): テキスト・ツー・イメージ・モデルのカスタマイズは大きな進歩を遂げているが、複数のパーソナライズされた概念を生成することは難しい課題である。
現在の手法では、複数の概念を扱う際に属性の漏洩とレイアウトの混乱に悩まされ、概念の忠実度とセマンティック一貫性が低下する。
本研究では,マルチコンセプトのカスタマイズにおいて,視覚的忠実度と正確なレイアウトを確保するために設計された,新しいトレーニングフリーフレームワークであるConcept Conductorを紹介する。
コンセプションコンダクタは、複数のカスタムモデルのサンプリングプロセスを分離し、異なる概念間の属性の漏洩を防止し、自己注意に基づく空間ガイダンスを通じて誤ったレイアウトを修正する。
また,各概念の生成領域を特定するために形状認識マスクを用いた概念注入手法を提案する。
この技術は,注目層における特徴融合を通じてパーソナライズされた概念の構造と外観を注入し,最終的な画像の調和を確保する。
大規模定性的かつ定量的な実験により、Concept Conductorは、各概念の視覚的詳細を保存しながら、正確なレイアウトを持つ合成イメージを一貫して生成できることが示されている。
既存のベースラインと比較して、Concept Conductorは大幅なパフォーマンス向上を示している。
本手法は,様々な概念の組み合わせをサポートし,視覚的に類似した概念を扱う場合でも高い忠実性を維持する。
コードとモデルはhttps://github.com/Nihukat/Concept-Conductor.comで公開されている。
関連論文リスト
- CusConcept: Customized Visual Concept Decomposition with Diffusion Models [13.95568624067449]
ベクトルを埋め込んだカスタマイズされた視覚概念を抽出する2段階のフレームワークCusConceptを提案する。
最初の段階では、CusConceptは語彙誘導概念分解機構を採用している。
第2段階では、生成した画像の忠実度と品質を高めるために、共同概念の洗練を行う。
論文 参考訳(メタデータ) (2024-10-01T04:41:44Z) - ConceptExpress: Harnessing Diffusion Models for Single-image Unsupervised Concept Extraction [20.43411883845885]
本研究では,非教師付き概念抽出(UCE)という,概念の人間的知識のない非教師付き概念抽出手法を提案する。
複数の概念を含むイメージを与えられたタスクは、事前訓練された拡散モデルから既存の知識のみに依存する個々の概念を抽出し、再現することを目的としている。
本稿では,事前学習した拡散モデル固有の能力を2つの側面に解き放つことで,UCEに対処するConceptExpressを提案する。
論文 参考訳(メタデータ) (2024-07-09T17:50:28Z) - AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization [4.544788024283586]
AttenCraft(アテンクラフト)は、複数のコンセプトの絡み合わせのための注意誘導方式である。
異なる概念からの特徴獲得の非同期性を緩和するために,一様サンプリングと再加重サンプリング方式を導入する。
本手法は,画像アライメントの観点からベースラインモデルより優れており,テキストアライメントに適合して動作する。
論文 参考訳(メタデータ) (2024-05-28T08:50:14Z) - FreeCustom: Tuning-Free Customized Image Generation for Multi-Concept Composition [49.2208591663092]
FreeCustomは、参照概念に基づいたマルチコンセプト構成のカスタマイズされた画像を生成するためのチューニング不要な方法である。
本稿では,MRSA(Multi-Reference Self-attention)機構と重み付きマスク戦略を導入する。
提案手法は,マルチコンセプト構成やシングルコンセプトのカスタマイズの観点から,他のトレーニングベース手法と同等あるいは同等に機能する。
論文 参考訳(メタデータ) (2024-05-22T17:53:38Z) - Non-confusing Generation of Customized Concepts in Diffusion Models [135.4385383284657]
テキスト誘導拡散モデル(TGDM)を用いた合成概念生成における概念間視覚混乱の共通課題に取り組む。
既存のカスタマイズされた生成方法は、第2ステージの微調整のみに焦点を当て、第1ステージを見下ろしている。
本稿では,CLIF(CLIF)と呼ばれる単純かつ効果的な画像言語微調整法を提案する。
論文 参考訳(メタデータ) (2024-05-11T05:01:53Z) - MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [49.935634230341904]
MC$2$と呼ばれるマルチコンセプトカスタマイズのためのマルチコンセプトガイダンスを導入し、柔軟性と忠実さを改善した。
MC$2$は、推論時間最適化を通じてモデルアーキテクチャの要件を分離する。
視覚とテキストのトークン間の注意重みを適応的に改善し、画像領域に関連した単語に集中するよう指示する。
論文 参考訳(メタデータ) (2024-04-08T07:59:04Z) - Concept Weaver: Enabling Multi-Concept Fusion in Text-to-Image Models [85.14042557052352]
本研究では,カスタマイズされたテキストと画像の拡散モデルを推論時に作成する方法であるConcept Weaverを紹介する。
概念ウィーバーは、他のアプローチと比較して、アイデンティティの忠実度が高い複数のカスタム概念を生成可能であることを示す。
論文 参考訳(メタデータ) (2024-04-05T06:41:27Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。