論文の概要: Neural 3D Scene Reconstruction with the Manhattan-world Assumption
- arxiv url: http://arxiv.org/abs/2205.02836v1
- Date: Thu, 5 May 2022 17:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 14:52:26.361783
- Title: Neural 3D Scene Reconstruction with the Manhattan-world Assumption
- Title(参考訳): マンハッタン世界推定によるニューラル3次元シーン再構成
- Authors: Haoyu Guo, Sida Peng, Haotong Lin, Qianqian Wang, Guofeng Zhang, Hujun
Bao, Xiaowei Zhou
- Abstract要約: 本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。
平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。
提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
- 参考スコア(独自算出の注目度): 58.90559966227361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the challenge of reconstructing 3D indoor scenes from
multi-view images. Many previous works have shown impressive reconstruction
results on textured objects, but they still have difficulty in handling
low-textured planar regions, which are common in indoor scenes. An approach to
solving this issue is to incorporate planer constraints into the depth map
estimation in multi-view stereo-based methods, but the per-view plane
estimation and depth optimization lack both efficiency and multi-view
consistency. In this work, we show that the planar constraints can be
conveniently integrated into the recent implicit neural representation-based
reconstruction methods. Specifically, we use an MLP network to represent the
signed distance function as the scene geometry. Based on the Manhattan-world
assumption, planar constraints are employed to regularize the geometry in floor
and wall regions predicted by a 2D semantic segmentation network. To resolve
the inaccurate segmentation, we encode the semantics of 3D points with another
MLP and design a novel loss that jointly optimizes the scene geometry and
semantics in 3D space. Experiments on ScanNet and 7-Scenes datasets show that
the proposed method outperforms previous methods by a large margin on 3D
reconstruction quality. The code is available at
https://zju3dv.github.io/manhattan_sdf.
- Abstract(参考訳): 本稿では,多視点画像から3次元室内シーンを再構成する課題について述べる。
以前の多くの作品は、テクスチャ化されたオブジェクトの印象的な再構成結果を示しているが、室内シーンで一般的である低テクスチャの平面領域を扱うのにはまだ困難である。
この問題を解決するアプローチは、マルチビューステレオベース手法の深度マップ推定にプランナー制約を組み込むことであるが、ビュー単位の平面推定と深さ最適化には効率とマルチビューの一貫性が欠如している。
本研究では,近年の暗黙的表現に基づく再構成法において,平面制約を便利に統合できることを示す。
具体的には,符号付き距離関数をシーン幾何学として表現するために,MLPネットワークを用いる。
マンハッタン世界の仮定に基づき、2次元セマンティックセグメンテーションネットワークによって予測される床および壁面領域の幾何を規則化するために平面的制約を用いる。
不正確なセグメンテーションを解決するために、3Dポイントのセマンティクスを他のMLPとエンコードし、3D空間におけるシーン幾何学とセマンティクスを協調的に最適化する新しい損失を設計する。
scannet と 7-scenes データセットを用いた実験により,提案手法が従来の手法よりも高い3次元再現性を示した。
コードはhttps://zju3dv.github.io/manhattan_sdfで入手できる。
関連論文リスト
- Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning [119.99066522299309]
KYNは、各点の密度を予測するために意味的および空間的文脈を理由として、単一視点シーン再構築のための新しい手法である。
その結果,KYNは3次元点ごとの密度の予測よりも3次元形状回復を改善することがわかった。
我々は,KITTI-360のシーンとオブジェクトの再構成における最先端の成果を達成し,以前の作業と比べてゼロショットの一般化が向上したことを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:59Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Neural 3D Scene Reconstruction from Multiple 2D Images without 3D
Supervision [41.20504333318276]
平面制約下でのスパース深度を用いてシーンを3次元の監督なしに再構成する新しいニューラル再構成法を提案する。
シーンを表すために,符号付き距離関数場,色場,確率場を導入する。
我々は、これらのフィールドを最適化し、2D画像で識別可能な光線マーキングを監督することでシーンを再構築する。
論文 参考訳(メタデータ) (2023-06-30T13:30:48Z) - SimpleRecon: 3D Reconstruction Without 3D Convolutions [21.952478592241]
本稿では,高品質なマルチビュー深度予測に焦点をあてることによって,単純なオフザシェルフ深度融合による高精度な3次元再構成を実現することを示す。
提案手法は,ScanNetと7シーンの3次元再構成において,深度推定と近接的あるいは良好な3次元再構成のための最先端技術に対する大きなリードを達成している。
論文 参考訳(メタデータ) (2022-08-31T09:46:34Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - Cuboids Revisited: Learning Robust 3D Shape Fitting to Single RGB Images [44.223070672713455]
特に、人為的な環境は、一般的にキュービドやシリンダーのようなボリュームプリミティブから成り立っている。
従来のアプローチでは、2Dまたは3D入力から直接形状パラメータを推定し、単純なオブジェクトのみを再現できる。
立方体を用いた実世界の環境を有意義に抽象化するプリミティブフィッティングのための堅牢な推定器を提案する。
論文 参考訳(メタデータ) (2021-05-05T13:36:00Z) - Coherent Reconstruction of Multiple Humans from a Single Image [68.3319089392548]
本研究では,1枚の画像から多人数の3Dポーズ推定を行う問題に対処する。
この問題のトップダウン設定における典型的な回帰アプローチは、まずすべての人間を検出し、それぞれを独立して再構築する。
我々のゴールは、これらの問題を回避し、現場のすべての人間のコヒーレントな3D再構成を生成するために学習する単一のネットワークをトレーニングすることである。
論文 参考訳(メタデータ) (2020-06-15T17:51:45Z) - Atlas: End-to-End 3D Scene Reconstruction from Posed Images [13.154808583020229]
RGB画像の集合からTSDF(truncated signed distance function)を直接回帰することにより,シーンのエンドツーエンドな3D再構成手法を提案する。
2D CNNは、各画像から特徴を独立して抽出し、その特徴をバックプロジェクションし、ボクセルボリュームに蓄積する。
3D CNNは蓄積した特徴を洗練し、TSDF値を予測する。
論文 参考訳(メタデータ) (2020-03-23T17:59:15Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。