論文の概要: S-INF: Towards Realistic Indoor Scene Synthesis via Scene Implicit Neural Field
- arxiv url: http://arxiv.org/abs/2412.17561v1
- Date: Mon, 23 Dec 2024 13:29:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:57:54.277880
- Title: S-INF: Towards Realistic Indoor Scene Synthesis via Scene Implicit Neural Field
- Title(参考訳): S-INF:シーンインシシデントニューラルネットワークによるリアルな室内シーン合成を目指して
- Authors: Zixi Liang, Guowei Xu, Haifeng Wu, Ye Huang, Wen Li, Lixin Duan,
- Abstract要約: 室内シーン合成のためのS-INF(Scene Implicit Neural Field)を導入し,マルチモーダルな関係の有意義な表現を学習することを目的とした。
S-INFは、マルチモーダルな関係をシーンレイアウトの関係と詳細なオブジェクト関係に切り離し、後に暗黙のニューラルネットワークを通してそれらを融合させる。
室内シーンの異なるタイプの合成において、最先端のパフォーマンスを一貫して達成する。
- 参考スコア(独自算出の注目度): 25.539007827647737
- License:
- Abstract: Learning-based methods have become increasingly popular in 3D indoor scene synthesis (ISS), showing superior performance over traditional optimization-based approaches. These learning-based methods typically model distributions on simple yet explicit scene representations using generative models. However, due to the oversimplified explicit representations that overlook detailed information and the lack of guidance from multimodal relationships within the scene, most learning-based methods struggle to generate indoor scenes with realistic object arrangements and styles. In this paper, we introduce a new method, Scene Implicit Neural Field (S-INF), for indoor scene synthesis, aiming to learn meaningful representations of multimodal relationships, to enhance the realism of indoor scene synthesis. S-INF assumes that the scene layout is often related to the object-detailed information. It disentangles the multimodal relationships into scene layout relationships and detailed object relationships, fusing them later through implicit neural fields (INFs). By learning specialized scene layout relationships and projecting them into S-INF, we achieve a realistic generation of scene layout. Additionally, S-INF captures dense and detailed object relationships through differentiable rendering, ensuring stylistic consistency across objects. Through extensive experiments on the benchmark 3D-FRONT dataset, we demonstrate that our method consistently achieves state-of-the-art performance under different types of ISS.
- Abstract(参考訳): 学習に基づく手法は3次元屋内シーン合成(ISS)においてますます普及しており、従来の最適化に基づく手法よりも優れた性能を示している。
これらの学習に基づく手法は、通常、生成モデルを用いて、単純だが明示的なシーン表現の分布をモデル化する。
しかし、詳細な情報を見落としている過度に単純化された明示的な表現と、シーン内のマルチモーダルな関係からのガイダンスの欠如により、学習に基づくほとんどの手法は、現実的なオブジェクト配置とスタイルを持つ屋内シーンの生成に苦慮している。
本稿では,室内シーン合成の現実性を高めるために,室内シーン合成のためのScene Implicit Neural Field(S-INF)を提案する。
S-INFは、シーンレイアウトがしばしばオブジェクトの詳細情報と関連していると仮定する。
マルチモーダルな関係をシーンレイアウトの関係と詳細なオブジェクト関係に切り離し、暗黙の神経場(INF)を通して後でそれらを融合させる。
シーンレイアウトの関係を学習し、それらをS-INFに投影することにより、シーンレイアウトの現実的な生成を実現する。
さらに、S-INFは、微分可能なレンダリングを通じて、密で詳細なオブジェクト関係をキャプチャし、オブジェクト間のスタイリスティックな一貫性を確保する。
ベンチマーク3D-FRONTデータセットの広範な実験を通じて,本手法がISSのさまざまなタイプの最先端性能を継続的に達成できることを実証した。
関連論文リスト
- InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with
Semantic Graph Prior [27.773451301040424]
InstructSceneは、セマンティックグラフとレイアウトデコーダを統合する新しい生成フレームワークである。
本稿では,提案手法が既存の最先端手法をはるかに上回ることを示す。
論文 参考訳(メタデータ) (2024-02-07T10:09:00Z) - DORSal: Diffusion for Object-centric Representations of Scenes et al [28.181157214966493]
最近の3Dシーン理解の進歩は、多様なシーンの大きなデータセットにわたる表現のスケーラブルな学習を可能にする。
本研究では,凍結したオブジェクト中心のスロットベースのシーン表現を条件とした3次元シーン生成にビデオ拡散アーキテクチャを適用したDORSalを提案する。
論文 参考訳(メタデータ) (2023-06-13T18:32:35Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - LANe: Lighting-Aware Neural Fields for Compositional Scene Synthesis [65.20672798704128]
運転シーンの合成のための照明対応ニューラルネットワーク(LANe)を提案する。
我々は,静的背景要素と過渡要素をワールドニューラルおよびクラス固有のオブジェクトニューラルに切り離すシーン表現を学習する。
CARLAシミュレータでレンダリングした様々な照明条件の合成データセット上で,本モデルの性能を示す。
論文 参考訳(メタデータ) (2023-04-06T17:59:25Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - Towards 3D Scene Understanding by Referring Synthetic Models [65.74211112607315]
メソッドは通常、実際のシーンスキャンにおける過剰なアノテーションを緩和する。
合成モデルは、合成特徴の実際のシーンカテゴリを、統一された特徴空間にどのように依存するかを考察する。
実験の結果,ScanNet S3DISデータセットの平均mAPは46.08%,学習データセットは55.49%であった。
論文 参考訳(メタデータ) (2022-03-20T13:06:15Z) - DeepPanoContext: Panoramic 3D Scene Understanding with Holistic Scene
Context Graph and Relation-based Optimization [66.25948693095604]
本研究では,パノラマ画像から各オブジェクトの3次元空間配置と形状,ポーズ,位置,意味的カテゴリを復元するパノラマ3次元シーン理解手法を提案する。
実験により, この手法は, パノラマシーン理解において, 幾何学的精度とオブジェクト配置の両方の観点から, 既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-08-24T13:55:29Z) - Neural Scene Graphs for Dynamic Scenes [57.65413768984925]
動的シーンをシーングラフに分解する最初のニューラルレンダリング手法を提案する。
我々は暗黙的に符号化されたシーンと、単一の暗黙の関数でオブジェクトを記述するために共同で学習された潜在表現を組み合わせる。
論文 参考訳(メタデータ) (2020-11-20T12:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。