論文の概要: GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs
- arxiv url: http://arxiv.org/abs/2312.00093v2
- Date: Mon, 10 Jun 2024 19:08:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 00:48:47.068279
- Title: GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs
- Title(参考訳): GraphDreamer: シーングラフからの合成3次元シーン合成
- Authors: Gege Gao, Weiyang Liu, Anpei Chen, Andreas Geiger, Bernhard Schölkopf,
- Abstract要約: シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
- 参考スコア(独自算出の注目度): 74.98581417902201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As pretrained text-to-image diffusion models become increasingly powerful, recent efforts have been made to distill knowledge from these text-to-image pretrained models for optimizing a text-guided 3D model. Most of the existing methods generate a holistic 3D model from a plain text input. This can be problematic when the text describes a complex scene with multiple objects, because the vectorized text embeddings are inherently unable to capture a complex description with multiple entities and relationships. Holistic 3D modeling of the entire scene further prevents accurate grounding of text entities and concepts. To address this limitation, we propose GraphDreamer, a novel framework to generate compositional 3D scenes from scene graphs, where objects are represented as nodes and their interactions as edges. By exploiting node and edge information in scene graphs, our method makes better use of the pretrained text-to-image diffusion model and is able to fully disentangle different objects without image-level supervision. To facilitate modeling of object-wise relationships, we use signed distance fields as representation and impose a constraint to avoid inter-penetration of objects. To avoid manual scene graph creation, we design a text prompt for ChatGPT to generate scene graphs based on text inputs. We conduct both qualitative and quantitative experiments to validate the effectiveness of GraphDreamer in generating high-fidelity compositional 3D scenes with disentangled object entities.
- Abstract(参考訳): 事前学習されたテキスト・ツー・イメージの拡散モデルがますます強力になるにつれて、これらのテキスト・ツー・イメージの事前学習モデルから知識を抽出し、テキスト誘導3Dモデルを最適化する試みが近年行われている。
既存の手法のほとんどは、平易なテキスト入力から総体的な3Dモデルを生成する。
テキストが複数のオブジェクトを持つ複雑なシーンを記述する場合、ベクトル化されたテキストの埋め込みは本質的に複数のエンティティと関係を持つ複雑な記述をキャプチャできないため、これは問題となる可能性がある。
全体像のホロスティックな3Dモデリングにより、テキストエンティティやコンセプトの正確なグラウンド化が防止される。
この制限に対処するために、我々はシーングラフから合成3Dシーンを生成する新しいフレームワークであるGraphDreamerを提案し、そこでオブジェクトはノードとして表現され、それらの相互作用はエッジとして表現される。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをより有効活用し,画像レベルの監督を伴わずに,異なるオブジェクトを完全に切り離すことができる。
オブジェクト関係のモデリングを容易にするために,署名付き距離場を表現として使用し,オブジェクトの相互接続を回避するために制約を課す。
手動のシーングラフ作成を避けるため,ChatGPTのためのテキストプロンプトを設計し,テキスト入力に基づいてシーングラフを生成する。
対象物が絡み合っていない高忠実度合成3Dシーンの生成におけるGraphDreamerの有効性を検証するために,定性的かつ定量的な実験を行った。
関連論文リスト
- RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion [39.03289977892935]
RealmDreamerはテキスト記述から一般的な前方向きの3Dシーンを生成する技術である。
我々の技術はビデオやマルチビューのデータを必要とせず、様々なスタイルの高品質な3Dシーンを合成することができる。
論文 参考訳(メタデータ) (2024-04-10T17:57:41Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - ATT3D: Amortized Text-to-3D Object Synthesis [78.96673650638365]
我々は、個別にではなく、統一されたモデルと同時に多くのプロンプトをトレーニングすることで、テキストプロンプトに対する最適化を保留する。
我々のフレームワークであるAmortized text-to-3D (ATT3D)は、プロンプト間の知識共有を可能にし、未知のセットアップに一般化し、新しいアセットのためのテキストと単純なアニメーション間のスムーズなスムーズさを実現する。
論文 参考訳(メタデータ) (2023-06-06T17:59:10Z) - Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image Models [21.622420436349245]
入力としてテキストプロンプトからルームスケールのテクスチャ化された3Dメッシュを生成する方法であるText2Roomを提案する。
我々は、事前訓練された2次元テキスト・画像モデルを利用して、異なるポーズから画像列を合成する。
これらの出力を一貫した3次元シーン表現に引き上げるために、単眼深度推定とテキスト条件のインペイントモデルを組み合わせる。
論文 参考訳(メタデータ) (2023-03-21T16:21:02Z) - Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using
Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。
シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である
本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T17:59:07Z) - Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。
本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。
本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文 参考訳(メタデータ) (2020-04-08T12:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。