論文の概要: CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation
- arxiv url: http://arxiv.org/abs/2412.03859v1
- Date: Thu, 05 Dec 2024 04:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:40:56.568976
- Title: CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation
- Title(参考訳): CreatiLayout:Creative Layout-to- Image GenerationのためのSamese Multimodal Diffusion Transformer
- Authors: Hui Zhang, Dexiang Hong, Tingwei Gao, Yitong Wang, Jie Shao, Xinglong Wu, Zuxuan Wu, Yu-Gang Jiang,
- Abstract要約: 拡散モデルは、視覚的に魅力的であるだけでなく、芸術的品質の高い画像を生成する能力で認識されている。
従来の手法は主にUNetベースのモデル(SD1.5やSDXLなど)に重点を置いており、限られた努力でMM-DiT(Multimodal Diffusion Transformer)を探索している。
MM-DiTの利点を継承して、画像とテキストのモダリティを処理するために、別々の集合ネットワーク重みを用いる。
大規模なレイアウトデータセットであるLayoutSAMには、270万のイメージテキストペアと1070万のエンティティが含まれています。
- 参考スコア(独自算出の注目度): 75.01950130227996
- License:
- Abstract: Diffusion models have been recognized for their ability to generate images that are not only visually appealing but also of high artistic quality. As a result, Layout-to-Image (L2I) generation has been proposed to leverage region-specific positions and descriptions to enable more precise and controllable generation. However, previous methods primarily focus on UNet-based models (e.g., SD1.5 and SDXL), and limited effort has explored Multimodal Diffusion Transformers (MM-DiTs), which have demonstrated powerful image generation capabilities. Enabling MM-DiT for layout-to-image generation seems straightforward but is challenging due to the complexity of how layout is introduced, integrated, and balanced among multiple modalities. To this end, we explore various network variants to efficiently incorporate layout guidance into MM-DiT, and ultimately present SiamLayout. To Inherit the advantages of MM-DiT, we use a separate set of network weights to process the layout, treating it as equally important as the image and text modalities. Meanwhile, to alleviate the competition among modalities, we decouple the image-layout interaction into a siamese branch alongside the image-text one and fuse them in the later stage. Moreover, we contribute a large-scale layout dataset, named LayoutSAM, which includes 2.7 million image-text pairs and 10.7 million entities. Each entity is annotated with a bounding box and a detailed description. We further construct the LayoutSAM-Eval benchmark as a comprehensive tool for evaluating the L2I generation quality. Finally, we introduce the Layout Designer, which taps into the potential of large language models in layout planning, transforming them into experts in layout generation and optimization. Our code, model, and dataset will be available at https://creatilayout.github.io.
- Abstract(参考訳): 拡散モデルは、視覚的に魅力的であるだけでなく、高い芸術的品質の画像を生成できることで認識されている。
その結果、Layout-to-Image(L2I)生成は、より正確で制御可能な生成を可能にするために、地域固有の位置と記述を活用することが提案されている。
しかし、従来の手法は主にUNetベースのモデル(例:SD1.5、SDXL)に焦点を当てており、強力な画像生成能力を示すマルチモーダル拡散変換器(MM-DiT)を探索してきた。
レイアウト・ツー・イメージ生成のためのMM-DiTの実装は簡単だが、レイアウトの導入、統合、複数モード間のバランスの複雑さのために難しい。
この目的のために、レイアウトガイダンスをMM-DiTに効率的に組み込むための様々なネットワーク変種を探索し、最終的にSiamLayoutを提示する。
MM-DiTの利点を継承するため、レイアウトの処理にはネットワーク重みの別セットを使用し、画像やテキストのモダリティと同じくらい重要視している。
一方、モダリティ間の競合を緩和するため、画像-テキストの隣のシアム分岐に画像-レイアウト相互作用を分離し、後段で融合する。
さらに、270万のイメージテキストペアと1070万のエンティティを含む、LayoutSAMという大規模なレイアウトデータセットも提供しています。
各エンティティには、バウンディングボックスと詳細な記述がアノテートされている。
さらに,L2I生成品質を評価する総合ツールとしてLayoutSAM-Evalベンチマークを構築した。
最後にレイアウト計画における大きな言語モデルの可能性を活用し、レイアウト生成と最適化の専門家に変換するLayout Designerを紹介します。
私たちのコード、モデル、データセットはhttps://creatilayout.github.io.comで公開されます。
関連論文リスト
- ComposeAnyone: Controllable Layout-to-Human Generation with Decoupled Multimodal Conditions [74.30040551058319]
ComposeAnyoneはマルチモーダル条件を分離した制御可能なレイアウト・ツー・ヒューマン生成手法である。
我々のデータセットは、各人間の画像の異なるコンポーネントに対して、分離されたテキストと参照画像アノテーションを提供する。
複数のデータセットの実験では、ComposeAnyoneが所定のレイアウトに整合して人間の画像を生成することが示されている。
論文 参考訳(メタデータ) (2025-01-21T14:32:47Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は,ユーザのデザイン意図に基づいて編集可能なポスターを生成する自動テキスト投稿システムを開発した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation [147.81509219686419]
本研究では,空間制御の4つの分野(数,位置,サイズ,形状)について,レイアウト誘導画像生成のための診断ベンチマークを提案する。
次に,新しいベースラインであるIterInpaintを提案する。
本研究はIterInpaintに関する総合的アブレーション研究である。
論文 参考訳(メタデータ) (2023-04-13T16:58:33Z) - LayoutDiffusion: Controllable Diffusion Model for Layout-to-image
Generation [46.567682868550285]
本稿では,従来よりも高い生成品質と制御性が得られるLayoutDiffusionという拡散モデルを提案する。
本稿では、領域情報を用いた構造画像パッチを構築し、パッチされた画像を特別なレイアウトに変換し、通常のレイアウトを統一した形で融合させる。
実験の結果,従来のSOTA法では比較的46.35%,COCO-stuff法では26.70%,VG Codeでは44.29%,41.82%であった。
論文 参考訳(メタデータ) (2023-03-30T06:56:12Z) - Geometry Aligned Variational Transformer for Image-conditioned Layout
Generation [38.747175229902396]
画像中の様々なレイアウトを自動回帰的に生成するICVT(Image-Conditioned Variational Transformer)を提案する。
まず、レイアウト要素内のコンテキスト関係をモデル化するために自己認識機構を採用し、一方、クロスアテンション機構は条件付き画像の視覚情報を融合するために使用される。
広告ポスターレイアウト設計データセットを大規模に構築し,微妙なレイアウトと鮮度マップアノテーションを付加する。
論文 参考訳(メタデータ) (2022-09-02T07:19:12Z) - LayoutBERT: Masked Language Layout Model for Object Insertion [3.4806267677524896]
本稿では,オブジェクト挿入タスクのためのレイアウトBERTを提案する。
これは、新しい自己監督型マスク付き言語モデルと双方向多頭部自己注意を用いている。
各種ドメインからのデータセットの質的および定量的評価を行う。
論文 参考訳(メタデータ) (2022-04-30T21:35:38Z) - LayoutTransformer: Layout Generation and Completion with Self-attention [105.21138914859804]
画像やモバイルアプリケーション,ドキュメント,3Dオブジェクトなど,さまざまな領域におけるシーンレイアウト生成の問題に対処する。
レイアウト要素間のコンテキスト的関係を学習するために,自己意識を活用する新しいフレームワークであるLayoutTransformerを提案する。
私たちのフレームワークでは、空のセットから、あるいはプリミティブの最初のシードセットから、新しいレイアウトを生成することができ、レイアウト毎に任意のプリミティブをサポートするために簡単にスケールすることができます。
論文 参考訳(メタデータ) (2020-06-25T17:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。