論文の概要: GenRC: Generative 3D Room Completion from Sparse Image Collections
- arxiv url: http://arxiv.org/abs/2407.12939v3
- Date: Fri, 2 Aug 2024 03:33:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 15:50:45.708765
- Title: GenRC: Generative 3D Room Completion from Sparse Image Collections
- Title(参考訳): GenRC: スパースイメージコレクションから生成した3Dルームコンプリート
- Authors: Ming-Feng Li, Yueh-Feng Ku, Hong-Xuan Yen, Chi Liu, Yu-Lun Liu, Albert Y. C. Chen, Cheng-Hao Kuo, Min Sun,
- Abstract要約: GenRCは、高忠実度テクスチャを備えたルームスケールの3Dメッシュを完成させる、自動トレーニングフリーパイプラインである。
E-Diffusionは、大域幾何学と外観整合性を保証するビュー一貫性パノラマRGBD画像を生成する。
GenRCは、ScanNetとARKitScenesデータセットのほとんどの外観と幾何学的メトリクスの下で、最先端のメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 17.222652213723485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse RGBD scene completion is a challenging task especially when considering consistent textures and geometries throughout the entire scene. Different from existing solutions that rely on human-designed text prompts or predefined camera trajectories, we propose GenRC, an automated training-free pipeline to complete a room-scale 3D mesh with high-fidelity textures. To achieve this, we first project the sparse RGBD images to a highly incomplete 3D mesh. Instead of iteratively generating novel views to fill in the void, we utilized our proposed E-Diffusion to generate a view-consistent panoramic RGBD image which ensures global geometry and appearance consistency. Furthermore, we maintain the input-output scene stylistic consistency through textual inversion to replace human-designed text prompts. To bridge the domain gap among datasets, E-Diffusion leverages models trained on large-scale datasets to generate diverse appearances. GenRC outperforms state-of-the-art methods under most appearance and geometric metrics on ScanNet and ARKitScenes datasets, even though GenRC is not trained on these datasets nor using predefined camera trajectories. Project page: https://minfenli.github.io/GenRC
- Abstract(参考訳): 特に、シーン全体を通して一貫したテクスチャやジオメトリーを考える場合、スパースRGBDシーンの完成は難しい課題である。
人間の設計したテキストプロンプトやカメラトラジェクトリに依存する既存のソリューションとは違って,高忠実度テクスチャを備えた部屋規模の3Dメッシュを実現するための,自動トレーニングフリーパイプラインであるGenRCを提案する。
これを実現するために、まず、スパースRGBD画像を高度に不完全な3Dメッシュに投影する。
空白を埋めるために新しいビューを反復的に生成する代わりに,提案したE-Diffusionを用いて,大域的幾何学と外観整合性を保証するビュー一貫性パノラマRGBD画像を生成する。
さらに,人間設計のテキストプロンプトを置き換えるために,テキスト変換による入力出力シーンのスタイリスティックな整合性を維持する。
データセット間のドメインギャップを埋めるために、E-Diffusionは大規模なデータセットでトレーニングされたモデルを活用して、さまざまな外観を生成する。
GenRCは、ScanNetとARKitScenesデータセットにおいて、これらのデータセットや事前に定義されたカメラトラジェクトリを使用してトレーニングされていないにもかかわらず、ほとんどの外観と幾何学的メトリクスの下で最先端の手法よりも優れています。
プロジェクトページ:https://minfenli.github.io/GenRC
関連論文リスト
- Bridging 3D Gaussian and Mesh for Freeview Video Rendering [57.21847030980905]
GauMeshはダイナミックシーンのモデリングとレンダリングのために3D GaussianとMeshをブリッジする。
提案手法は, 動的シーンの異なる部分を表現するために, プリミティブの適切なタイプに適応することを示す。
論文 参考訳(メタデータ) (2024-03-18T04:01:26Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - Generative Scene Synthesis via Incremental View Inpainting using RGBD
Diffusion Models [39.23531919945332]
本研究では,カメラ軌道に沿って新しいRGBDビューを順次生成する新しい手法を提案する。
各レンダリングされたRGBDビューは、後に部分曲面としてバックプロジェクションされ、中間メッシュに補完される。
中間メッシュとカメラプロジェクションの使用は、多視点不整合の屈折問題を解くのに役立つ。
論文 参考訳(メタデータ) (2022-12-12T15:50:00Z) - CompNVS: Novel View Synthesis with Scene Completion [83.19663671794596]
本稿では,スパースグリッドに基づくニューラルシーン表現を用いた生成パイプラインを提案する。
画像特徴を3次元空間に符号化し、幾何学的完備化ネットワークとその後のテクスチャ塗布ネットワークを用いて、欠落した領域を外挿する。
フォトリアリスティック画像列は、整合性関連微分可能レンダリングによって最終的に得られる。
論文 参考訳(メタデータ) (2022-07-23T09:03:13Z) - SceneGraphFusion: Incremental 3D Scene Graph Prediction from RGB-D
Sequences [76.28527350263012]
rgb-dフレームのシーケンスを与えられた3次元環境から意味的シーングラフを漸進的に構築する手法を提案する。
我々は、グラフニューラルネットワークを用いて、プリミティブシーンコンポーネントからpointnet機能を集約する。
提案手法は,35hzで動作する他の3dセマンティクスおよびパンオプティカルセグメンテーション法と同等の精度で,高いマージンで3dシーングラフ予測手法を上回る。
論文 参考訳(メタデータ) (2021-03-27T13:00:36Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z) - OSTeC: One-Shot Texture Completion [86.23018402732748]
ワンショット3D顔テクスチャ補完のための教師なしアプローチを提案する。
提案手法では,2次元フェースジェネレータで回転画像を再構成することにより,入力画像を3次元で回転させ,見えない領域を埋め込む。
完成したテクスチャーをジェネレーターに投影することで、ターゲットイメージを先取りします。
論文 参考訳(メタデータ) (2020-12-30T23:53:26Z) - Procedural 3D Terrain Generation using Generative Adversarial Networks [0.0]
我々はGAN(Generative Adversarial Networks)を用いて、衛星やドローンが捉えた風景のリモートセンシング画像の分布に基づいて、現実的な3D環境を作り出す。
我々は、トレーニング中に提供されるリモートセンシングされた景観に関連して、高所分布と彩色が可能な3次元景観を構築することができる。
論文 参考訳(メタデータ) (2020-10-13T14:15:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。