論文の概要: Obtaining Favorable Layouts for Multiple Object Generation
- arxiv url: http://arxiv.org/abs/2405.00791v1
- Date: Wed, 1 May 2024 18:07:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 20:42:37.145053
- Title: Obtaining Favorable Layouts for Multiple Object Generation
- Title(参考訳): 複数オブジェクト生成のための好適レイアウトの実現
- Authors: Barak Battash, Amit Rozner, Lior Wolf, Ofir Lindenbaum,
- Abstract要約: 大規模なテキスト・ツー・イメージモデルでは、テキスト・プロンプトに基づいて高品質で多様な画像を生成することができる。
しかし、既存の最先端拡散モデルでは、複数の被写体を含む画像を生成する際に困難に直面している。
誘導原理に基づく新しい手法を提案し、拡散モデルが最初にレイアウトを提案し、次にレイアウトグリッドを並べ替えることを可能にする。
これは、提案したマスクに固執するようにクロスアテンションマップ(XAM)を強制し、潜在マップから私たちによって決定された新しい場所へピクセルを移動させることによって達成される。
- 参考スコア(独自算出の注目度): 50.616875565173274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale text-to-image models that can generate high-quality and diverse images based on textual prompts have shown remarkable success. These models aim ultimately to create complex scenes, and addressing the challenge of multi-subject generation is a critical step towards this goal. However, the existing state-of-the-art diffusion models face difficulty when generating images that involve multiple subjects. When presented with a prompt containing more than one subject, these models may omit some subjects or merge them together. To address this challenge, we propose a novel approach based on a guiding principle. We allow the diffusion model to initially propose a layout, and then we rearrange the layout grid. This is achieved by enforcing cross-attention maps (XAMs) to adhere to proposed masks and by migrating pixels from latent maps to new locations determined by us. We introduce new loss terms aimed at reducing XAM entropy for clearer spatial definition of subjects, reduce the overlap between XAMs, and ensure that XAMs align with their respective masks. We contrast our approach with several alternative methods and show that it more faithfully captures the desired concepts across a variety of text prompts.
- Abstract(参考訳): テキストプロンプトに基づいて高品質で多様な画像を生成できる大規模テキスト・ツー・イメージモデルでは、顕著な成功を収めている。
これらのモデルは、究極的には複雑なシーンを作成することを目的としており、マルチオブジェクト生成の課題に対処することが、この目標に向けた重要なステップである。
しかし、既存の最先端拡散モデルでは、複数の被写体を含む画像を生成する際に困難に直面している。
複数の主題を含むプロンプトを提示すると、これらのモデルはいくつかの主題を省略したり、それらをマージしたりすることができる。
この課題に対処するために、ガイド原理に基づく新しいアプローチを提案する。
拡散モデルが最初にレイアウトを提案することを許し、それからレイアウトグリッドを並べ替えます。
これは、提案したマスクに固執するようにクロスアテンションマップ(XAM)を強制し、潜在マップから私たちによって決定された新しい場所へピクセルを移動させることによって達成される。
我々は,被験者の空間的定義を明確にするためのXAMエントロピーの低減,XAM間の重なり合いの低減,各マスクとの整合性の確保を目的とした新たな損失項を導入する。
我々はこのアプローチをいくつかの代替手法と対比し、様々なテキストプロンプトで望ましい概念をより忠実に捉えていることを示す。
関連論文リスト
- Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation [44.457347230146404]
我々は、複雑な画像生成に強力な構造化表現であるシーングラフを利用する。
本稿では,変分オートエンコーダと拡散モデルの生成能力を一般化可能な方法で活用する。
本手法は,テキスト,レイアウト,シーングラフに基づいて,近年の競合より優れています。
論文 参考訳(メタデータ) (2024-10-01T07:02:46Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [6.4680449907623006]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。
レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。
本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Blended Latent Diffusion [18.043090347648157]
本稿では,汎用画像の局所的なテキスト駆動編集の課題に対して,ユーザが提供するマスクに所望の編集を限定する高速化されたソリューションを提案する。
提案手法は,低次元の潜伏空間で操作することで拡散を高速化する,最近のテキストから画像への潜伏拡散モデル (LDM) を利用する。
論文 参考訳(メタデータ) (2022-06-06T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。