論文の概要: InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with
Semantic Graph Prior
- arxiv url: http://arxiv.org/abs/2402.04717v1
- Date: Wed, 7 Feb 2024 10:09:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 15:49:39.386205
- Title: InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with
Semantic Graph Prior
- Title(参考訳): InstructScene: セマンティックグラフを用いたインストラクション駆動3次元室内シーン合成
- Authors: Chenguo Lin, Yadong Mu
- Abstract要約: InstructSceneは、セマンティックグラフとレイアウトデコーダを統合する新しい生成フレームワークである。
本稿では,提案手法が既存の最先端手法をはるかに上回ることを示す。
- 参考スコア(独自算出の注目度): 27.773451301040424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Comprehending natural language instructions is a charming property for 3D
indoor scene synthesis systems. Existing methods directly model object joint
distributions and express object relations implicitly within a scene, thereby
hindering the controllability of generation. We introduce InstructScene, a
novel generative framework that integrates a semantic graph prior and a layout
decoder to improve controllability and fidelity for 3D scene synthesis. The
proposed semantic graph prior jointly learns scene appearances and layout
distributions, exhibiting versatility across various downstream tasks in a
zero-shot manner. To facilitate the benchmarking for text-driven 3D scene
synthesis, we curate a high-quality dataset of scene-instruction pairs with
large language and multimodal models. Extensive experimental results reveal
that the proposed method surpasses existing state-of-the-art approaches by a
large margin. Thorough ablation studies confirm the efficacy of crucial design
components. Project page: https://chenguolin.github.io/projects/InstructScene.
- Abstract(参考訳): 自然言語を補完することは3次元屋内シーン合成システムにとって魅力的な特性である。
既存の方法は、オブジェクトの関節分布を直接モデル化し、シーン内のオブジェクト関係を暗黙的に表現することで、生成の制御性を阻害する。
InstructSceneは、セマンティックグラフとレイアウトデコーダを統合した新しい生成フレームワークで、3Dシーン合成の可制御性と忠実性を改善する。
提案するセマンティックグラフは,シーンの出現やレイアウト分布を事前に学習し,ゼロショットで様々な下流タスクにまたがる汎用性を示す。
テキスト駆動3Dシーン合成のベンチマークを容易にするため,大規模言語とマルチモーダルモデルを用いた高品質なシーン命令ペアデータセットをキュレートする。
実験結果から,提案手法は既存の最先端手法をはるかに上回っていることが明らかとなった。
徹底的なアブレーション研究は重要な設計要素の有効性を確認する。
プロジェクトページ: https://chenguolin.github.io/projects/InstructScene
関連論文リスト
- TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [45.70819890915097]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - 3D Scene Diffusion Guidance using Scene Graphs [3.207455883863626]
本研究では,シーングラフを用いた3次元シーン拡散誘導手法を提案する。
シーングラフが提供する相対的空間情報を活用するため,我々はデノナイジングネットワーク内の関係グラフ畳み込みブロックを利用する。
論文 参考訳(メタデータ) (2023-08-08T06:16:37Z) - Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly
Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。
弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。
オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文 参考訳(メタデータ) (2023-07-18T13:49:49Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。
提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。
提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文 参考訳(メタデータ) (2023-05-04T11:32:16Z) - DiffuScene: Denoising Diffusion Models for Generative Indoor Scene
Synthesis [44.521452102413534]
拡散モデルに基づく屋内3次元シーン合成のためのDiffuSceneを提案する。
非順序オブジェクトセットに格納された3Dインスタンスプロパティを生成し、各オブジェクト設定に最もよく似た幾何学を検索する。
論文 参考訳(メタデータ) (2023-03-24T18:00:15Z) - Compositional 3D Scene Generation using Locally Conditioned Diffusion [49.5784841881488]
合成シーン拡散へのアプローチとして,テクスブフォローカライズ条件付き拡散を導入する。
本研究では, スコア蒸留によるテキスト・ツー・3D合成パイプラインを試作し, 関連するベースラインよりも高忠実度で合成3Dシーンを生成できることを示した。
論文 参考訳(メタデータ) (2023-03-21T22:37:16Z) - Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using
Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。
シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である
本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。