Fugu-MT 論文翻訳(概要): GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs

論文の概要: GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs

arxiv url: http://arxiv.org/abs/2312.00093v1
Date: Thu, 30 Nov 2023 18:59:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-04 17:00:03.833905
Title: GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs
Title（参考訳）: GraphDreamer: シーングラフからの合成3次元シーン合成
Authors: Gege Gao, Weiyang Liu, Anpei Chen, Andreas Geiger, Bernhard Sch\"olkopf
Abstract要約: シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。 GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
参考スコア（独自算出の注目度）: 45.70819890915097
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As pretrained text-to-image diffusion models become increasingly powerful, recent efforts have been made to distill knowledge from these text-to-image pretrained models for optimizing a text-guided 3D model. Most of the existing methods generate a holistic 3D model from a plain text input. This can be problematic when the text describes a complex scene with multiple objects, because the vectorized text embeddings are inherently unable to capture a complex description with multiple entities and relationships. Holistic 3D modeling of the entire scene further prevents accurate grounding of text entities and concepts. To address this limitation, we propose GraphDreamer, a novel framework to generate compositional 3D scenes from scene graphs, where objects are represented as nodes and their interactions as edges. By exploiting node and edge information in scene graphs, our method makes better use of the pretrained text-to-image diffusion model and is able to fully disentangle different objects without image-level supervision. To facilitate modeling of object-wise relationships, we use signed distance fields as representation and impose a constraint to avoid inter-penetration of objects. To avoid manual scene graph creation, we design a text prompt for ChatGPT to generate scene graphs based on text inputs. We conduct both qualitative and quantitative experiments to validate the effectiveness of GraphDreamer in generating high-fidelity compositional 3D scenes with disentangled object entities.
Abstract（参考訳）: 事前学習されたテキストから画像への拡散モデルがますます強力になるにつれて、テキスト誘導3dモデルを最適化するために、これらのテキストから画像への事前学習モデルからの知識を蒸留する取り組みが近年行われている。既存の手法のほとんどは、プレーンテキスト入力から全体的3dモデルを生成する。ベクトル化されたテキスト埋め込みは、本質的に複数のエンティティと関係を持つ複雑な記述をキャプチャできないため、テキストが複数のオブジェクトで複雑なシーンを記述する場合、これは問題となる。シーン全体の全体的3dモデリングは、テキストエンティティと概念の正確な接地をさらに防ぐ。この制限に対処するために、我々はシーングラフから合成3Dシーンを生成する新しいフレームワークであるGraphDreamerを提案し、そこでオブジェクトはノードとして表現され、それらの相互作用はエッジとして表現される。シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをより有効活用し,画像レベルの監督を伴わずに,異なるオブジェクトを完全に切り離すことができる。オブジェクト関係のモデリングを容易にするために,署名付き距離場を表現として使用し,オブジェクトの相互接続を回避するために制約を課す。手動のシーングラフ作成を避けるため,ChatGPTのためのテキストプロンプトを設計し,テキスト入力に基づいてシーングラフを生成する。我々は,graphdreamer の高忠実度合成3dシーン作成における効果を検証するために,質的かつ定量的な実験を行った。

関連論文リスト

DecompDreamer: Advancing Structured 3D Asset Generation with Multi-Object Decomposition and Gaussian Splatting [24.719972380079405]
DecompDreamerは高品質な3D合成を生成するために設計されたトレーニングルーチンである。シーンを構成されたコンポーネントとその関係に分解する。オブジェクトの絡み合いが優れている複雑な3D組成物を効果的に生成する。
論文参考訳（メタデータ） (2025-03-15T03:37:25Z)
Toward Scene Graph and Layout Guided Complex 3D Scene Generation [31.396230860775415]
Scene GraphとLayout Guided 3D Scene Generation(GraLa3D)の新たなフレームワークを提案する。複雑な3Dシーンを記述するテキストプロンプトが与えられたとき、GraLa3Dはレイアウト境界ボックス情報を持つシーングラフ表現を使用してシーンをモデル化する。 GraLa3Dは、単一オブジェクトノードと複合スーパーノードでシーングラフを独自に構築する。
論文参考訳（メタデータ） (2024-12-29T14:21:03Z)
Generate Any Scene: Evaluating and Improving Text-to-Vision Generation with Scene Graph Programming [44.32980579195508]
シーングラフを列挙するフレームワークであるGenerate Any Sceneを紹介した。 Any Sceneを生成することで、各シーングラフをキャプションに変換し、テキスト・ツー・ビジョンモデルのスケーラブルな評価を可能にする。我々は,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,テキスト・ツー・3Dモデルに対して広範囲な評価を行い,モデル性能に関する重要な知見を提示する。
論文参考訳（メタデータ） (2024-12-11T09:17:39Z)
RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion [39.03289977892935]
RealmDreamerはテキスト記述から一般的な前方向きの3Dシーンを生成する技術である。我々の技術はビデオやマルチビューのデータを必要とせず、様々なスタイルの高品質な3Dシーンを合成することができる。
論文参考訳（メタデータ） (2024-04-10T17:57:41Z)
ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文参考訳（メタデータ） (2024-03-04T07:57:05Z)
SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文参考訳（メタデータ） (2023-12-13T18:59:30Z)
TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2023-12-07T12:10:05Z)
ATT3D: Amortized Text-to-3D Object Synthesis [78.96673650638365]
我々は、個別にではなく、統一されたモデルと同時に多くのプロンプトをトレーニングすることで、テキストプロンプトに対する最適化を保留する。我々のフレームワークであるAmortized text-to-3D (ATT3D)は、プロンプト間の知識共有を可能にし、未知のセットアップに一般化し、新しいアセットのためのテキストと単純なアニメーション間のスムーズなスムーズさを実現する。
論文参考訳（メタデータ） (2023-06-06T17:59:10Z)
Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image Models [21.622420436349245]
入力としてテキストプロンプトからルームスケールのテクスチャ化された3Dメッシュを生成する方法であるText2Roomを提案する。我々は、事前訓練された2次元テキスト・画像モデルを利用して、異なるポーズから画像列を合成する。これらの出力を一貫した3次元シーン表現に引き上げるために、単眼深度推定とテキスト条件のインペイントモデルを組み合わせる。
論文参考訳（メタデータ） (2023-03-21T16:21:02Z)
Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文参考訳（メタデータ） (2021-08-19T17:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。