論文の概要: End-to-End Optimization of Scene Layout
- arxiv url: http://arxiv.org/abs/2007.11744v1
- Date: Thu, 23 Jul 2020 01:35:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 12:30:10.396914
- Title: End-to-End Optimization of Scene Layout
- Title(参考訳): シーンレイアウトのエンドツーエンド最適化
- Authors: Andrew Luo, Zhoutong Zhang, Jiajun Wu, Joshua B. Tenenbaum
- Abstract要約: シーングラフに条件付きシーンレイアウト合成のためのエンド・ツー・エンド変分生成モデルを提案する。
シーングラフを抽象的だが汎用的な表現として使用し、多様なシーンレイアウトの合成を誘導する。
- 参考スコア(独自算出の注目度): 56.80294778746068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an end-to-end variational generative model for scene layout
synthesis conditioned on scene graphs. Unlike unconditional scene layout
generation, we use scene graphs as an abstract but general representation to
guide the synthesis of diverse scene layouts that satisfy relationships
included in the scene graph. This gives rise to more flexible control over the
synthesis process, allowing various forms of inputs such as scene layouts
extracted from sentences or inferred from a single color image. Using our
conditional layout synthesizer, we can generate various layouts that share the
same structure of the input example. In addition to this conditional generation
design, we also integrate a differentiable rendering module that enables layout
refinement using only 2D projections of the scene. Given a depth and a
semantics map, the differentiable rendering module enables optimizing over the
synthesized layout to fit the given input in an analysis-by-synthesis fashion.
Experiments suggest that our model achieves higher accuracy and diversity in
conditional scene synthesis and allows exemplar-based scene generation from
various input forms.
- Abstract(参考訳): シーングラフに条件付きシーンレイアウト合成のためのエンドツーエンド変動生成モデルを提案する。
非条件のシーンレイアウト生成とは異なり、シーングラフは抽象的だが一般的な表現であり、シーングラフに含まれる関係を満たす多様なシーンレイアウトの合成を導く。
これにより合成プロセスのより柔軟な制御が可能となり、文章から抽出されたシーンレイアウトや単一のカラー画像から推測される様々な入力形式が可能になる。
条件付きレイアウトシンセサイザーを用いて、入力例の同じ構造を共有する様々なレイアウトを生成することができる。
この条件付き生成設計に加えて、シーンの2次元プロジェクションのみを用いてレイアウトの洗練を可能にする可変レンダリングモジュールも統合する。
深さとセマンティクスマップが与えられると、微分可能なレンダリングモジュールは、合成されたレイアウトを最適化して、分析・合成の方法で入力に適合させることができる。
実験により,条件付きシーン合成の精度と多様性が向上し,様々な入力形態からの例題に基づくシーン生成が可能となった。
関連論文リスト
- Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation [44.457347230146404]
我々は、複雑な画像生成に強力な構造化表現であるシーングラフを利用する。
本稿では,変分オートエンコーダと拡散モデルの生成能力を一般化可能な方法で活用する。
本手法は,テキスト,レイアウト,シーングラフに基づいて,近年の競合より優れています。
論文 参考訳(メタデータ) (2024-10-01T07:02:46Z) - SAMPLING: Scene-adaptive Hierarchical Multiplane Images Representation
for Novel View Synthesis from a Single Image [60.52991173059486]
単一画像からの新規ビュー合成のためのシーン適応型階層型多面体画像表現であるSAMPlingを紹介する。
提案手法は,KITTIデータセット上の単一画像を用いて,大規模非有界屋外シーンにおいてかなりの性能向上を示す。
論文 参考訳(メタデータ) (2023-09-12T15:33:09Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - Interactive Image Synthesis with Panoptic Layout Generation [14.1026819862002]
本稿では,Panoptic Layout Generative Adversarial Networks (PLGAN)を提案する。
PLGANは、アモルファス境界を持つ"stuff"と、明確に定義された形状を持つ"things"とを区別するパノプティクス理論を採用している。
我々は、COCO-Stuff、Visual Genome、Landscapeデータセット上の最先端のレイアウトベースモデルとPLGANを実験的に比較した。
論文 参考訳(メタデータ) (2022-03-04T02:45:27Z) - Semantic Palette: Guiding Scene Generation with Class Proportions [34.746963256847145]
本稿では,シーン生成プロセスの指針として,クラス比率を効果的に許容する,新しいアーキテクチャ設計と学習目標を備えた条件付きフレームワークを提案する。
セマンティックコントロールにより、実際の分布に近いレイアウトを生成でき、シーン生成プロセス全体の拡張に役立つ。
実際のレイアウトとイメージのペアでトレーニングされたセグメンテーションセグメントは、実際のペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-06-03T07:04:00Z) - Semantic View Synthesis [56.47999473206778]
我々はセマンティック・ビュー・シンセサイザーの新たな課題に取り組み、セマンティック・ラベル・マップを入力として、合成シーンの自由視点レンダリングを生成する。
まず,3次元映像の視覚面の色と深度を合成することに焦点を当てた。
次に、合成色と深度を用いて、多面画像(MPI)表現予測プロセスに明示的な制約を課す。
論文 参考訳(メタデータ) (2020-08-24T17:59:46Z) - Example-Guided Image Synthesis across Arbitrary Scenes using Masked
Spatial-Channel Attention and Self-Supervision [83.33283892171562]
実例誘導画像合成は,最近セマンティックラベルマップと模範画像から画像を合成するために試みられている。
本稿では,ラベルマップと意味的に異なる任意のシーンイメージを例に,より困難で汎用的な課題に取り組む。
本稿では,グローバル・ローカルな特徴アライメントと合成のためのエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-18T18:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。