論文の概要: SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation
- arxiv url: http://arxiv.org/abs/2308.10156v2
- Date: Wed, 13 Mar 2024 12:16:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 18:57:25.524922
- Title: SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation
- Title(参考訳): SSMG:自由形式の空間意味マップ誘導拡散モデル
レイアウト・ツー・イメージ生成
- Authors: Chengyou Jia, Minnan Luo, Zhuohang Dang, Guang Dai, Xiaojun Chang,
Mengmeng Wang, Jingdong Wang
- Abstract要約: 本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
- 参考スコア(独自算出の注目度): 68.42476385214785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant progress in Text-to-Image (T2I) generative models, even
lengthy and complex text descriptions still struggle to convey detailed
controls. In contrast, Layout-to-Image (L2I) generation, aiming to generate
realistic and complex scene images from user-specified layouts, has risen to
prominence. However, existing methods transform layout information into tokens
or RGB images for conditional control in the generative process, leading to
insufficient spatial and semantic controllability of individual instances. To
address these limitations, we propose a novel Spatial-Semantic Map Guided
(SSMG) diffusion model that adopts the feature map, derived from the layout, as
guidance. Owing to rich spatial and semantic information encapsulated in
well-designed feature maps, SSMG achieves superior generation quality with
sufficient spatial and semantic controllability compared to previous works.
Additionally, we propose the Relation-Sensitive Attention (RSA) and
Location-Sensitive Attention (LSA) mechanisms. The former aims to model the
relationships among multiple objects within scenes while the latter is designed
to heighten the model's sensitivity to the spatial information embedded in the
guidance. Extensive experiments demonstrate that SSMG achieves highly promising
results, setting a new state-of-the-art across a range of metrics encompassing
fidelity, diversity, and controllability.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成モデルが大幅に進歩したにもかかわらず、長く複雑なテキスト記述でさえ詳細な制御を伝えるのに苦戦している。
対照的に、ユーザ指定レイアウトから現実的で複雑なシーン画像を生成するLayout-to-Image(L2I)生成が注目されている。
しかし、既存の手法は、生成過程における条件制御のために、レイアウト情報をトークンやRGBイメージに変換するため、個々のインスタンスの空間的・意味的な制御が不十分になる。
これらの制約に対処するために,レイアウトから派生した特徴マップをガイダンスとして採用した空間意味マップガイド(SSMG)拡散モデルを提案する。
良く設計された特徴マップにカプセル化された豊富な空間的・意味的な情報により、SSMGは以前の作品と比べて十分な空間的・意味的制御性を持つ優れた生成品質を達成できる。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
前者はシーン内の複数のオブジェクト間の関係をモデル化することを目的としており、後者はガイダンスに埋め込まれた空間情報に対するモデルの感度を高めるように設計されている。
広範な実験により、SSMGは高い有望な結果が得られ、忠実さ、多様性、制御性を含む様々な指標に新しい最先端技術が確立された。
関連論文リスト
- Boundary Attention Constrained Zero-Shot Layout-To-Image Generation [47.435234391588494]
近年のテキスト・画像拡散モデルでは,テキストからの高解像度画像の生成に優れるが,空間構成や物体数に対する精密な制御に苦慮している。
本稿では,新たなゼロショットL2IアプローチであるBACONを提案する。
自己アテンション特徴写像の画素間相関を利用して、交差アテンション写像を整列し、境界注意で制約された3つの損失関数を組み合わせ、潜時特徴を更新する。
論文 参考訳(メタデータ) (2024-11-15T05:44:45Z) - EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。
低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。
大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文 参考訳(メタデータ) (2024-01-22T07:34:06Z) - Few-shot Image Generation via Information Transfer from the Built
Geodesic Surface [2.617962830559083]
構築地表面からの情報伝達法(ITBGS)を提案する。
FAGSモジュールでは、トレーニングデータセットからPre-Shape Spaceにイメージ機能を投影することで、擬似ソースドメインが生成される。
提案手法は,多種多様なセマンティックなデータセットにまたがって,最適な,あるいは同等な結果が得られることを実証する。
論文 参考訳(メタデータ) (2024-01-03T13:57:09Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image
Generation [74.5598315066249]
拡散モデルを用いてゼロショット接地T2I生成を探索する。
本稿では,地域境界(R&B)を意識したクロスアテンションガイダンス手法を提案する。
論文 参考訳(メタデータ) (2023-10-13T05:48:42Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - DuAT: Dual-Aggregation Transformer Network for Medical Image
Segmentation [21.717520350930705]
トランスフォーマーベースのモデルはコンピュータビジョンタスクで成功することが広く実証されている。
しかし、それらはしばしば大きなパターンの特徴によって支配され、局所的な詳細が失われる。
本稿では、2つの革新的な設計を特徴とするDuATと呼ばれるDual-Aggregation Transformer Networkを提案する。
大腸内視鏡画像における皮膚病変像とポリープの分画における最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-21T07:54:02Z) - Dual Attention GANs for Semantic Image Synthesis [101.36015877815537]
本稿では,写真リアリスティック・セマンティック・一貫性のあるイメージを合成するための新しいデュアルアテンションGAN(DAGAN)を提案する。
また,2つの新しいモジュール,すなわち位置対応空間アテンションモジュール(SAM)と規模対応チャネルアテンションモジュール(CAM)を提案する。
DAGANは、より少ないモデルパラメータを使用しながら、最先端のメソッドよりも驚くほど優れた結果が得られる。
論文 参考訳(メタデータ) (2020-08-29T17:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。