論文の概要: LatexBlend: Scaling Multi-concept Customized Generation with Latent Textual Blending
- arxiv url: http://arxiv.org/abs/2503.06956v1
- Date: Mon, 10 Mar 2025 06:08:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:13.801192
- Title: LatexBlend: Scaling Multi-concept Customized Generation with Latent Textual Blending
- Title(参考訳): LatexBlend: テキストブレンディングによるマルチコンセプトカスタマイズ生成のスケールアップ
- Authors: Jian Jin, Zhenbo Yu, Yang Shen, Zhenyong Fu, Jian Yang,
- Abstract要約: マルチコンセプトのカスタマイズ生成を効果的にスケールするための新しいフレームワークであるLaTexBlendを提案する。
LaTexBlendは単一の概念を表現し、複数の概念をラテントテクスチャ空間にブレンドする。
実験により、LaTexBlendは複数のカスタマイズされた概念を調和した構造と高い主観的忠実さで柔軟に統合できることが示されている。
- 参考スコア(独自算出の注目度): 33.75406777822422
- License:
- Abstract: Customized text-to-image generation renders user-specified concepts into novel contexts based on textual prompts. Scaling the number of concepts in customized generation meets a broader demand for user creation, whereas existing methods face challenges with generation quality and computational efficiency. In this paper, we propose LaTexBlend, a novel framework for effectively and efficiently scaling multi-concept customized generation. The core idea of LaTexBlend is to represent single concepts and blend multiple concepts within a Latent Textual space, which is positioned after the text encoder and a linear projection. LaTexBlend customizes each concept individually, storing them in a concept bank with a compact representation of latent textual features that captures sufficient concept information to ensure high fidelity. At inference, concepts from the bank can be freely and seamlessly combined in the latent textual space, offering two key merits for multi-concept generation: 1) excellent scalability, and 2) significant reduction of denoising deviation, preserving coherent layouts. Extensive experiments demonstrate that LaTexBlend can flexibly integrate multiple customized concepts with harmonious structures and high subject fidelity, substantially outperforming baselines in both generation quality and computational efficiency. Our code will be publicly available.
- Abstract(参考訳): カスタマイズされたテキスト・ツー・イメージ生成は、ユーザーが指定した概念をテキスト・プロンプトに基づいて新しいコンテキストにレンダリングする。
カスタマイズされた世代における概念の数を拡大することは、ユーザー生成に対する幅広い需要を満たす一方、既存の手法では、生成品質と計算効率の課題に直面している。
本稿では,マルチコンセプトのカスタマイズ生成を効果的かつ効率的にスケールするための新しいフレームワークであるLaTexBlendを提案する。
LaTexBlendの中核的な考え方は、単一の概念を表現し、テキストエンコーダと線形射影の後に位置付けられたラテントテキスト空間に複数の概念をブレンドすることである。
LaTexBlendは個々のコンセプトを個別にカスタマイズし、概念バンクに保存する。
推論において、銀行の概念は、潜在するテキスト空間で自由にシームレスに結合することができ、マルチコンセプト生成に2つの重要な利点を提供する。
1)優れたスケーラビリティ、そして
2) 偏差が著しく減少し, コヒーレントなレイアウトが保たれた。
広範な実験により、LaTexBlendは、複数のカスタマイズされた概念を、調和した構造と高い主観的忠実さで柔軟に統合することができ、生成品質と計算効率の両方において、かなり優れたベースラインを達成できることが示されている。
私たちのコードは公開されます。
関連論文リスト
- Scaling Concept With Text-Guided Diffusion Models [53.80799139331966]
概念を置き換える代わりに、概念自体を強化するか、あるいは抑圧できるだろうか?
ScalingConceptは、分解された概念を、新しい要素を導入することなく、実際の入力でスケールアップまたはスケールダウンする、シンプルで効果的な方法である。
さらに重要なのは、ScalingConceptは画像とオーディオドメインにまたがる様々な新しいゼロショットアプリケーションを可能にすることだ。
論文 参考訳(メタデータ) (2024-10-31T17:09:55Z) - Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis [14.21719970175159]
コンセプトコンダクタは、マルチコンセプトのカスタマイズにおいて、視覚的忠実さと正確なレイアウトを保証するように設計されている。
本稿では,各概念の生成領域を特定するために形状認識マスクを用いた概念注入手法を提案する。
本手法は,様々な概念の組み合わせをサポートし,視覚的に類似した概念を扱う場合でも高い忠実性を維持する。
論文 参考訳(メタデータ) (2024-08-07T08:43:58Z) - MultiBooth: Towards Generating All Your Concepts in an Image from Text [29.02126551676985]
本稿では,テキストからの画像生成において,マルチコンセプトをカスタマイズするための新しい,効率的な手法であるMultiBoothを紹介する。
単一概念学習フェーズでは,多モード画像エンコーダと効率的な概念符号化技術を用いて,各概念の簡潔かつ識別的な表現を学習する。
多概念統合フェーズでは、有界ボックスを用いて、相互注意マップ内の各概念の生成領域を定義する。
論文 参考訳(メタデータ) (2024-04-22T14:47:54Z) - MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [59.00909718832648]
マルチコンセプトカスタマイズのための新しいアプローチであるMC$2$を提案する。
視覚的およびテキスト的トークン間の注意重みを適応的に補正することにより、画像領域が関連概念と正確に一致することを保証する。
MC$2$は、即時参照アライメントの観点からトレーニングベースの手法より優れていることを示す実験である。
論文 参考訳(メタデータ) (2024-04-08T07:59:04Z) - Gen4Gen: Generative Data Pipeline for Generative Multi-Concept
Composition [47.07564907486087]
近年のテキスト・画像拡散モデルでは,新規でパーソナライズされた概念を含む画像の学習と合成が可能となっている。
本稿では,テキスト・画像拡散モデルのパーソナライズという領域における2つの相互接続問題に取り組む。
論文 参考訳(メタデータ) (2024-02-23T18:55:09Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z) - ELITE: Encoding Visual Concepts into Textual Embeddings for Customized
Text-to-Image Generation [59.44301617306483]
高速かつ正確にカスタマイズされた画像生成のための学習ベースエンコーダを提案する。
提案手法は,高速な符号化処理により,高忠実度インバージョンとより堅牢な編集性を実現する。
論文 参考訳(メタデータ) (2023-02-27T14:49:53Z) - Multi-Concept Customization of Text-to-Image Diffusion [51.8642043743222]
既存のテキスト・ツー・イメージ・モデルの効率的な拡張法であるCustom Diffusionを提案する。
テキスト・ツー・イメージ・コンディショニング機構におけるパラメータの最適化は,新しい概念を表現するのに十分強力であることがわかった。
本モデルは,複数の新しい概念のバリエーションを生成し,既存の概念を新しい設定でシームレスに構成する。
論文 参考訳(メタデータ) (2022-12-08T18:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。