Fugu-MT 論文翻訳(概要): InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with Semantic Graph Prior

論文の概要: InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with Semantic Graph Prior

arxiv url: http://arxiv.org/abs/2402.04717v1
Date: Wed, 7 Feb 2024 10:09:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 15:49:39.386205
Title: InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with Semantic Graph Prior
Title（参考訳）: InstructScene: セマンティックグラフを用いたインストラクション駆動3次元室内シーン合成
Authors: Chenguo Lin, Yadong Mu
Abstract要約: InstructSceneは、セマンティックグラフとレイアウトデコーダを統合する新しい生成フレームワークである。本稿では,提案手法が既存の最先端手法をはるかに上回ることを示す。
参考スコア（独自算出の注目度）: 27.773451301040424
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Comprehending natural language instructions is a charming property for 3D indoor scene synthesis systems. Existing methods directly model object joint distributions and express object relations implicitly within a scene, thereby hindering the controllability of generation. We introduce InstructScene, a novel generative framework that integrates a semantic graph prior and a layout decoder to improve controllability and fidelity for 3D scene synthesis. The proposed semantic graph prior jointly learns scene appearances and layout distributions, exhibiting versatility across various downstream tasks in a zero-shot manner. To facilitate the benchmarking for text-driven 3D scene synthesis, we curate a high-quality dataset of scene-instruction pairs with large language and multimodal models. Extensive experimental results reveal that the proposed method surpasses existing state-of-the-art approaches by a large margin. Thorough ablation studies confirm the efficacy of crucial design components. Project page: https://chenguolin.github.io/projects/InstructScene.
Abstract（参考訳）: 自然言語を補完することは3次元屋内シーン合成システムにとって魅力的な特性である。既存の方法は、オブジェクトの関節分布を直接モデル化し、シーン内のオブジェクト関係を暗黙的に表現することで、生成の制御性を阻害する。 InstructSceneは、セマンティックグラフとレイアウトデコーダを統合した新しい生成フレームワークで、3Dシーン合成の可制御性と忠実性を改善する。提案するセマンティックグラフは,シーンの出現やレイアウト分布を事前に学習し,ゼロショットで様々な下流タスクにまたがる汎用性を示す。テキスト駆動3Dシーン合成のベンチマークを容易にするため,大規模言語とマルチモーダルモデルを用いた高品質なシーン命令ペアデータセットをキュレートする。実験結果から,提案手法は既存の最先端手法をはるかに上回っていることが明らかとなった。徹底的なアブレーション研究は重要な設計要素の有効性を確認する。プロジェクトページ: https://chenguolin.github.io/projects/InstructScene

関連論文リスト

Functional 3D Scene Synthesis through Human-Scene Optimization [30.910671968876024]
我々のアプローチは、シンプルだが効果的な原理に基づいており、我々はシーン合成を条件に、人間によって使用可能な部屋を生成する。この人間中心のシーン生成が実現可能であれば、部屋のレイアウトは機能し、より一貫性のある3D構造に繋がる。
論文参考訳（メタデータ） (2025-02-05T04:00:24Z)
OccScene: Semantic Occupancy-based Cross-task Mutual Learning for 3D Scene Generation [84.32038395034868]
OccSceneは、きめ細かい3D認識と高品質な生成を統一されたフレームワークに統合する。 OccSceneはテキストプロンプトによってのみ、新しい一貫性のある3Dリアルシーンを生成する。実験により,OccSceneは屋内および屋外の広いシナリオにおいて,リアルな3Dシーン生成を実現することが示された。
論文参考訳（メタデータ） (2024-12-15T13:26:51Z)
InstructLayout: Instruction-Driven 2D and 3D Layout Synthesis with Semantic Graph Prior [23.536285325566013]
自然言語命令を補完することは、2Dおよび3Dレイアウト合成システムにとって魅力的な特性である。既存の手法は、オブジェクトの関節分布を暗黙的にモデル化し、オブジェクトの関係を表現し、生成物の可制御性合成システムを妨げる。 Instructは、セマンティックグラフとレイアウトデコーダを統合した、新しい生成フレームワークである。
論文参考訳（メタデータ） (2024-07-10T12:13:39Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキスト記述のみで高度に一貫した3Dシーンを作成する方法であるDreamScapeを提案する。本手法では,シーン表現のための3次元ガウスガイドを,意味的プリミティブ(オブジェクト)とその空間変換によって構成する。プログレッシブスケール制御は、局所オブジェクト生成中に調整され、異なるサイズと密度のオブジェクトがシーンに適応することを保証する。
論文参考訳（メタデータ） (2024-04-14T12:13:07Z)
Planner3D: LLM-enhanced graph prior meets 3D indoor scene explicit regularization [31.52569918586902]
3Dシーンの合成は、ロボティクス、映画、ビデオゲームといった様々な産業に多様な応用がある。本稿では,シーングラフからリアルで合理的な屋内シーンを生成することを目的とする。本手法は,特にシーンレベルの忠実度の観点から,より優れた3次元シーン合成を実現する。
論文参考訳（メタデータ） (2024-03-19T15:54:48Z)
GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。 GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文参考訳（メタデータ） (2023-11-30T18:59:58Z)
Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文参考訳（メタデータ） (2023-07-18T13:49:49Z)
CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文参考訳（メタデータ） (2023-05-25T17:39:13Z)
Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文参考訳（メタデータ） (2023-05-04T11:32:16Z)
Compositional 3D Scene Generation using Locally Conditioned Diffusion [49.5784841881488]
合成シーン拡散へのアプローチとして,テクスブフォローカライズ条件付き拡散を導入する。本研究では, スコア蒸留によるテキスト・ツー・3D合成パイプラインを試作し, 関連するベースラインよりも高忠実度で合成3Dシーンを生成できることを示した。
論文参考訳（メタデータ） (2023-03-21T22:37:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。