論文の概要: EchoScene: Indoor Scene Generation via Information Echo over Scene Graph Diffusion
- arxiv url: http://arxiv.org/abs/2405.00915v1
- Date: Thu, 2 May 2024 00:04:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 18:14:01.375425
- Title: EchoScene: Indoor Scene Generation via Information Echo over Scene Graph Diffusion
- Title(参考訳): EchoScene:インフォメーションエコーによる屋内シーン生成
- Authors: Guangyao Zhai, Evin Pınar Örnek, Dave Zhenyu Chen, Ruotong Liao, Yan Di, Nassir Navab, Federico Tombari, Benjamin Busam,
- Abstract要約: シーングラフ上に3次元屋内シーンを生成する対話型かつ制御可能な生成モデルであるEchoSceneを提案する。
既存の手法では、様々なノード数、複数のエッジの組み合わせ、マニピュレータによるノードエッジ操作によるシーングラフの処理に苦労している。
- 参考スコア(独自算出の注目度): 77.0556470600979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present EchoScene, an interactive and controllable generative model that generates 3D indoor scenes on scene graphs. EchoScene leverages a dual-branch diffusion model that dynamically adapts to scene graphs. Existing methods struggle to handle scene graphs due to varying numbers of nodes, multiple edge combinations, and manipulator-induced node-edge operations. EchoScene overcomes this by associating each node with a denoising process and enables collaborative information exchange, enhancing controllable and consistent generation aware of global constraints. This is achieved through an information echo scheme in both shape and layout branches. At every denoising step, all processes share their denoising data with an information exchange unit that combines these updates using graph convolution. The scheme ensures that the denoising processes are influenced by a holistic understanding of the scene graph, facilitating the generation of globally coherent scenes. The resulting scenes can be manipulated during inference by editing the input scene graph and sampling the noise in the diffusion model. Extensive experiments validate our approach, which maintains scene controllability and surpasses previous methods in generation fidelity. Moreover, the generated scenes are of high quality and thus directly compatible with off-the-shelf texture generation. Code and trained models are open-sourced.
- Abstract(参考訳): シーングラフ上に3次元屋内シーンを生成する対話型かつ制御可能な生成モデルであるEchoSceneを提案する。
EchoSceneは、シーングラフに動的に適応するデュアルブランチ拡散モデルを活用する。
既存の手法では、様々なノード数、複数のエッジの組み合わせ、マニピュレータによるノードエッジ操作によるシーングラフの処理に苦労している。
EchoSceneは、各ノードを認知プロセスに関連付け、協調的な情報交換を可能にし、グローバルな制約を認識した制御可能で一貫性のある生成を強化することで、これを克服する。
これは、形状とレイアウトの両方で情報エコースキームによって達成される。
すべてのデノイングステップにおいて、すべてのプロセスは、これらの更新をグラフ畳み込みを使って組み合わせた情報交換ユニットと、デノイングデータを共有します。
このスキームにより、デノナイジングプロセスはシーングラフの全体的理解の影響を受け、グローバルな一貫性のあるシーンの生成を促進することができる。
結果のシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることにより、推論中に操作することができる。
大規模な実験により、シーン制御性を維持し、生成忠実度において従来の手法を超越したアプローチが検証された。
さらに、生成されたシーンは高品質で、即ち市販のテクスチャ生成と直接互換性がある。
コードとトレーニングされたモデルはオープンソースである。
関連論文リスト
- Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation [44.457347230146404]
我々は、複雑な画像生成に強力な構造化表現であるシーングラフを利用する。
本稿では,変分オートエンコーダと拡散モデルの生成能力を一般化可能な方法で活用する。
本手法は,テキスト,レイアウト,シーングラフに基づいて,近年の競合より優れています。
論文 参考訳(メタデータ) (2024-10-01T07:02:46Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - Local-Global Information Interaction Debiasing for Dynamic Scene Graph
Generation [51.92419880088668]
マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。
長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。
論文 参考訳(メタデータ) (2023-08-10T01:24:25Z) - 3D Scene Diffusion Guidance using Scene Graphs [3.207455883863626]
本研究では,シーングラフを用いた3次元シーン拡散誘導手法を提案する。
シーングラフが提供する相対的空間情報を活用するため,我々はデノナイジングネットワーク内の関係グラフ畳み込みブロックを利用する。
論文 参考訳(メタデータ) (2023-08-08T06:16:37Z) - Unsupervised Coordinate-Based Video Denoising [2.867801048665443]
我々は、データ不足の問題を緩和するのに役立つ、新しい教師なしのディープラーニングアプローチを導入します。
提案手法は,特徴マップを生成する特徴生成器,復号化参照フレームを生成するデノワーズネット,高周波詳細を再導入するRefine-Netの3つのモジュールから構成される。
論文 参考訳(メタデータ) (2023-07-01T00:11:40Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using
Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。
シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である
本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。