論文の概要: InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with
Semantic Graph Prior
- arxiv url: http://arxiv.org/abs/2402.04717v1
- Date: Wed, 7 Feb 2024 10:09:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 15:49:39.386205
- Title: InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with
Semantic Graph Prior
- Title(参考訳): InstructScene: セマンティックグラフを用いたインストラクション駆動3次元室内シーン合成
- Authors: Chenguo Lin, Yadong Mu
- Abstract要約: InstructSceneは、セマンティックグラフとレイアウトデコーダを統合する新しい生成フレームワークである。
本稿では,提案手法が既存の最先端手法をはるかに上回ることを示す。
- 参考スコア(独自算出の注目度): 27.773451301040424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Comprehending natural language instructions is a charming property for 3D
indoor scene synthesis systems. Existing methods directly model object joint
distributions and express object relations implicitly within a scene, thereby
hindering the controllability of generation. We introduce InstructScene, a
novel generative framework that integrates a semantic graph prior and a layout
decoder to improve controllability and fidelity for 3D scene synthesis. The
proposed semantic graph prior jointly learns scene appearances and layout
distributions, exhibiting versatility across various downstream tasks in a
zero-shot manner. To facilitate the benchmarking for text-driven 3D scene
synthesis, we curate a high-quality dataset of scene-instruction pairs with
large language and multimodal models. Extensive experimental results reveal
that the proposed method surpasses existing state-of-the-art approaches by a
large margin. Thorough ablation studies confirm the efficacy of crucial design
components. Project page: https://chenguolin.github.io/projects/InstructScene.
- Abstract(参考訳): 自然言語を補完することは3次元屋内シーン合成システムにとって魅力的な特性である。
既存の方法は、オブジェクトの関節分布を直接モデル化し、シーン内のオブジェクト関係を暗黙的に表現することで、生成の制御性を阻害する。
InstructSceneは、セマンティックグラフとレイアウトデコーダを統合した新しい生成フレームワークで、3Dシーン合成の可制御性と忠実性を改善する。
提案するセマンティックグラフは,シーンの出現やレイアウト分布を事前に学習し,ゼロショットで様々な下流タスクにまたがる汎用性を示す。
テキスト駆動3Dシーン合成のベンチマークを容易にするため,大規模言語とマルチモーダルモデルを用いた高品質なシーン命令ペアデータセットをキュレートする。
実験結果から,提案手法は既存の最先端手法をはるかに上回っていることが明らかとなった。
徹底的なアブレーション研究は重要な設計要素の有効性を確認する。
プロジェクトページ: https://chenguolin.github.io/projects/InstructScene
関連論文リスト
- InstructLayout: Instruction-Driven 2D and 3D Layout Synthesis with Semantic Graph Prior [23.536285325566013]
自然言語命令を補完することは、2Dおよび3Dレイアウト合成システムにとって魅力的な特性である。
既存の手法は、オブジェクトの関節分布を暗黙的にモデル化し、オブジェクトの関係を表現し、生成物の可制御性合成システムを妨げる。
Instructは、セマンティックグラフとレイアウトデコーダを統合した、新しい生成フレームワークである。
論文 参考訳(メタデータ) (2024-07-10T12:13:39Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキスト記述のみで高度に一貫した3Dシーンを作成する方法であるDreamScapeを提案する。
本手法では,シーン表現のための3次元ガウスガイドを,意味的プリミティブ(オブジェクト)とその空間変換によって構成する。
プログレッシブスケール制御は、局所オブジェクト生成中に調整され、異なるサイズと密度のオブジェクトがシーンに適応することを保証する。
論文 参考訳(メタデータ) (2024-04-14T12:13:07Z) - Compositional 3D Scene Synthesis with Scene Graph Guided Layout-Shape Generation [31.52569918586902]
3Dシーンの合成は、ロボティクス、映画、ビデオゲームといった様々な産業に多様な応用がある。
本稿では,シーングラフから現実的で合理的な3Dシーンを生成することを目的とする。
統一グラフ畳み込みネットワーク(GCN)により,共同レイアウト・形状分布によって更新されたシーングラフからグラフ特徴を抽出する。
論文 参考訳(メタデータ) (2024-03-19T15:54:48Z) - GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly
Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。
弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。
オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文 参考訳(メタデータ) (2023-07-18T13:49:49Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。
提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。
提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文 参考訳(メタデータ) (2023-05-04T11:32:16Z) - Compositional 3D Scene Generation using Locally Conditioned Diffusion [49.5784841881488]
合成シーン拡散へのアプローチとして,テクスブフォローカライズ条件付き拡散を導入する。
本研究では, スコア蒸留によるテキスト・ツー・3D合成パイプラインを試作し, 関連するベースラインよりも高忠実度で合成3Dシーンを生成できることを示した。
論文 参考訳(メタデータ) (2023-03-21T22:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。