論文の概要: LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts
- arxiv url: http://arxiv.org/abs/2308.06713v1
- Date: Sun, 13 Aug 2023 08:06:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 15:57:45.067237
- Title: LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts
- Title(参考訳): LAW拡散:レイアウト拡散による複雑なシーン生成
- Authors: Binbin Yang, Yi Luo, Ziliang Chen, Guangrun Wang, Xiaodan Liang, Liang
Lin
- Abstract要約: LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
- 参考スコア(独自算出の注目度): 107.11267074981905
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Thanks to the rapid development of diffusion models, unprecedented progress
has been witnessed in image synthesis. Prior works mostly rely on pre-trained
linguistic models, but a text is often too abstract to properly specify all the
spatial properties of an image, e.g., the layout configuration of a scene,
leading to the sub-optimal results of complex scene generation. In this paper,
we achieve accurate complex scene generation by proposing a semantically
controllable Layout-AWare diffusion model, termed LAW-Diffusion. Distinct from
the previous Layout-to-Image generation (L2I) methods that only explore
category-aware relationships, LAW-Diffusion introduces a spatial dependency
parser to encode the location-aware semantic coherence across objects as a
layout embedding and produces a scene with perceptually harmonious object
styles and contextual relations. To be specific, we delicately instantiate each
object's regional semantics as an object region map and leverage a
location-aware cross-object attention module to capture the spatial
dependencies among those disentangled representations. We further propose an
adaptive guidance schedule for our layout guidance to mitigate the trade-off
between the regional semantic alignment and the texture fidelity of generated
objects. Moreover, LAW-Diffusion allows for instance reconfiguration while
maintaining the other regions in a synthesized image by introducing a
layout-aware latent grafting mechanism to recompose its local regional
semantics. To better verify the plausibility of generated scenes, we propose a
new evaluation metric for the L2I task, dubbed Scene Relation Score (SRS) to
measure how the images preserve the rational and harmonious relations among
contextual objects. Comprehensive experiments demonstrate that our
LAW-Diffusion yields the state-of-the-art generative performance, especially
with coherent object relations.
- Abstract(参考訳): 拡散モデルの急速な発展により、画像合成における前例のない進歩が見られた。
以前の作品は、主に事前訓練された言語モデルに依存していたが、画像の空間的特性(例えば、シーンのレイアウト構成)を適切に指定するにはテキストは抽象的すぎることが多く、複雑なシーン生成の準最適結果につながる。
本稿では,LAW拡散と呼ばれる意味制御可能なLayout-AWare拡散モデルを提案した。
従来のl2i(layout-to-image generation)メソッドとは異なり、law-diffusionでは、オブジェクト間の位置認識セマンティックコヒーレンスをレイアウト埋め込みとしてエンコードする空間依存パーサを導入し、知覚的に調和したオブジェクトスタイルとコンテキスト関係を持つシーンを生成する。
具体的には、各対象の局所的な意味を対象領域マップとして微妙にインスタンス化し、位置認識可能なクロスオブジェクトアテンションモジュールを利用して、これらの異種表現間の空間的依存関係をキャプチャする。
さらに,地域的意味的アライメントと生成対象のテクスチャ忠実度とのトレードオフを軽減するため,レイアウト指導のための適応的ガイダンススケジュールを提案する。
さらに、LAW-Diffusionは、局所的な意味論を再構成するレイアウト対応の潜伏グラフト機構を導入することにより、合成画像内の他の領域を維持しながら、インスタンスの再設定を可能にする。
SRS(Scene Relation Score)と呼ばれるL2Iタスクに対して,画像が文脈オブジェクト間の合理的かつ調和的な関係をいかに保っているかを評価するための新しい評価基準を提案する。
包括的実験により、我々のLAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことが示された。
関連論文リスト
- DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - Enhancing Object Coherence in Layout-to-Image Synthesis [13.289854750239956]
本稿では,グローバル・セマンティック・フュージョン(GSF)と自己相似機能拡張モジュールを用いた新しい拡散モデルを提案する。
セマンティックコヒーレンスについては,イメージキャプションには画像内のオブジェクト内のセマンティックな関係を定義するための豊富な情報が含まれていると論じる。
物理コヒーレンスを改善するため,各画素の生成プロセスに局所的な物理的コヒーレンス関係を明示的に統合する自己相似コヒーレンスアテンション合成(SCA)モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-17T13:43:43Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Semantic-guided modeling of spatial relation and object co-occurrence for indoor scene recognition [5.083140094792973]
SpaCoNetは、セマンティックセグメンテーションによって導かれるオブジェクトの空間的関係と共起を同時にモデル化する。
広範に利用されている3つのシーンデータセットの実験結果から,提案手法の有効性と汎用性を示す。
論文 参考訳(メタデータ) (2023-05-22T03:04:22Z) - PandA: Unsupervised Learning of Parts and Appearances in the Feature
Maps of GANs [34.145110544546114]
本研究では,空間的部分を表す因子とその外観を,完全に教師なしの方法で共同で発見するアーキテクチャに依存しないアプローチを提案する。
我々の手法は訓練時間の観点からはるかに効率的であり、最も重要なのは、より正確な局所制御を提供することである。
論文 参考訳(メタデータ) (2022-05-31T18:28:39Z) - Global Aggregation then Local Distribution for Scene Parsing [99.1095068574454]
提案手法は,エンドツーエンドのトレーニング可能なブロックとしてモジュール化され,既存のセマンティックセグメンテーションネットワークに容易に接続可能であることを示す。
私たちのアプローチでは、Cityscapes、ADE20K、Pascal Context、Camvid、COCO-stuffといった主要なセマンティックセグメンテーションベンチマークに基づいて、新しい最先端の技術を構築できます。
論文 参考訳(メタデータ) (2021-07-28T03:46:57Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。