論文の概要: Gen4Gen: Generative Data Pipeline for Generative Multi-Concept
Composition
- arxiv url: http://arxiv.org/abs/2402.15504v1
- Date: Fri, 23 Feb 2024 18:55:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 13:44:42.852241
- Title: Gen4Gen: Generative Data Pipeline for Generative Multi-Concept
Composition
- Title(参考訳): Gen4Gen: 生成多概念合成のための生成データパイプライン
- Authors: Chun-Hsiao Yeh, Ta-Ying Cheng, He-Yen Hsieh, Chuan-En Lin, Yi Ma,
Andrew Markham, Niki Trigoni, H.T. Kung, Yubei Chen
- Abstract要約: 近年のテキスト・画像拡散モデルでは,新規でパーソナライズされた概念を含む画像の学習と合成が可能となっている。
本稿では,テキスト・画像拡散モデルのパーソナライズという領域における2つの相互接続問題に取り組む。
- 参考スコア(独自算出の注目度): 47.07564907486087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text-to-image diffusion models are able to learn and synthesize images
containing novel, personalized concepts (e.g., their own pets or specific
items) with just a few examples for training. This paper tackles two
interconnected issues within this realm of personalizing text-to-image
diffusion models. First, current personalization techniques fail to reliably
extend to multiple concepts -- we hypothesize this to be due to the mismatch
between complex scenes and simple text descriptions in the pre-training dataset
(e.g., LAION). Second, given an image containing multiple personalized
concepts, there lacks a holistic metric that evaluates performance on not just
the degree of resemblance of personalized concepts, but also whether all
concepts are present in the image and whether the image accurately reflects the
overall text description. To address these issues, we introduce Gen4Gen, a
semi-automated dataset creation pipeline utilizing generative models to combine
personalized concepts into complex compositions along with text-descriptions.
Using this, we create a dataset called MyCanvas, that can be used to benchmark
the task of multi-concept personalization. In addition, we design a
comprehensive metric comprising two scores (CP-CLIP and TI-CLIP) for better
quantifying the performance of multi-concept, personalized text-to-image
diffusion methods. We provide a simple baseline built on top of Custom
Diffusion with empirical prompting strategies for future researchers to
evaluate on MyCanvas. We show that by improving data quality and prompting
strategies, we can significantly increase multi-concept personalized image
generation quality, without requiring any modifications to model architecture
or training algorithms.
- Abstract(参考訳): 最近のテキスト・ツー・イメージ拡散モデルでは、新しい、パーソナライズされた概念(例えば、自分のペットや特定のアイテム)を含むイメージを学習し、合成することができる。
本稿では,テキスト・画像拡散モデルのパーソナライズという領域における2つの相互接続問題に取り組む。
まず、現在のパーソナライズ技術は複数の概念に確実に拡張できない -- 複雑なシーンと事前トレーニングデータセット(LAIONなど)の単純なテキスト記述とのミスマッチによるものだと仮定する。
第二に、複数のパーソナライズされた概念を含むイメージには、パーソナライズされた概念の類似度だけでなく、イメージ内にすべての概念が存在するか、そのイメージが全体のテキスト記述を正確に反映しているかという、全体的な評価基準が欠けている。
これらの問題に対処するために、生成モデルを利用した半自動データセット生成パイプラインであるGen4Genを紹介した。
これを用いて、マルチコンセプトパーソナライゼーションのタスクをベンチマークするために、MyCanvasというデータセットを作成します。
さらに,2つのスコア(CP-CLIPとTI-CLIP)からなる総合的メトリクスを設計し,マルチコンセプト・パーソナライズされたテキスト・ツー・イメージ拡散手法の性能を定量的に評価する。
Custom Diffusion上に構築されたシンプルなベースラインを,将来の研究者がMyCanvasで評価するための実証的な戦略として提供する。
本研究では,データ品質の向上とプロンプト戦略により,モデルアーキテクチャやトレーニングアルゴリズムの変更を必要とせずに,複数概念のパーソナライズされた画像生成品質を大幅に向上できることを示す。
関連論文リスト
- IP-Composer: Semantic Composition of Visual Concepts [49.18472621931207]
合成画像生成のためのトレーニング不要アプローチであるIP-Composerを提案する。
提案手法は,入力画像のCLIP埋め込みを条件とした新しい画像を生成するIP-Adapter上に構築する。
テキストから特定された概念固有のCLIP-サブスペースに、複数の入力画像の投影から縫い付けられた複合埋め込みを製作することで、このアプローチを複数の視覚的入力に拡張する。
論文 参考訳(メタデータ) (2025-02-19T18:49:31Z) - AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization [4.544788024283586]
AttenCraft(アテンクラフト)は、複数のコンセプトの絡み合わせのための注意誘導方式である。
異なる概念からの特徴獲得の非同期性を緩和するために,一様サンプリングと再加重サンプリング方式を導入する。
本手法は,画像アライメントの観点からベースラインモデルより優れており,テキストアライメントに適合して動作する。
論文 参考訳(メタデータ) (2024-05-28T08:50:14Z) - FreeCustom: Tuning-Free Customized Image Generation for Multi-Concept Composition [49.2208591663092]
FreeCustomは、参照概念に基づいたマルチコンセプト構成のカスタマイズされた画像を生成するためのチューニング不要な方法である。
本稿では,MRSA(Multi-Reference Self-attention)機構と重み付きマスク戦略を導入する。
提案手法は,マルチコンセプト構成やシングルコンセプトのカスタマイズの観点から,他のトレーニングベース手法と同等あるいは同等に機能する。
論文 参考訳(メタデータ) (2024-05-22T17:53:38Z) - Textual Localization: Decomposing Multi-concept Images for
Subject-Driven Text-to-Image Generation [5.107886283951882]
マルチコンセプト入力画像を扱うための局所化テキスト・ツー・イメージモデルを提案する。
提案手法は,複数概念を分解するための新しいクロスアテンションガイダンスを組み込んだものである。
特に,本手法は,生成した画像の目標概念と整合した横断アテンションマップを生成する。
論文 参考訳(メタデータ) (2024-02-15T14:19:42Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文 参考訳(メタデータ) (2023-02-23T18:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。