論文の概要: MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors
- arxiv url: http://arxiv.org/abs/2409.14019v1
- Date: Sat, 21 Sep 2024 05:12:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 04:06:38.356116
- Title: MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors
- Title(参考訳): MOSE: NeRF-Lifted Noisy Priors を用いた単眼意味再構成
- Authors: Zhenhua Du, Binbin Xu, Haoyu Zhang, Kai Huo, Shuaifeng Zhi,
- Abstract要約: 画像レベルの雑音を3次元に引き上げるニューラルネットワークセマンティック・リコンストラクション手法を提案する。
本手法は3次元空間と2次元空間の両方で正確な意味論と幾何学を生成する。
- 参考スコア(独自算出の注目度): 11.118490283303407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately reconstructing dense and semantically annotated 3D meshes from monocular images remains a challenging task due to the lack of geometry guidance and imperfect view-dependent 2D priors. Though we have witnessed recent advancements in implicit neural scene representations enabling precise 2D rendering simply from multi-view images, there have been few works addressing 3D scene understanding with monocular priors alone. In this paper, we propose MOSE, a neural field semantic reconstruction approach to lift inferred image-level noisy priors to 3D, producing accurate semantics and geometry in both 3D and 2D space. The key motivation for our method is to leverage generic class-agnostic segment masks as guidance to promote local consistency of rendered semantics during training. With the help of semantics, we further apply a smoothness regularization to texture-less regions for better geometric quality, thus achieving mutual benefits of geometry and semantics. Experiments on the ScanNet dataset show that our MOSE outperforms relevant baselines across all metrics on tasks of 3D semantic segmentation, 2D semantic segmentation and 3D surface reconstruction.
- Abstract(参考訳): 単分子画像から密で意味論的に注釈付けされた3Dメッシュを正確に再構築することは、幾何学的ガイダンスの欠如と不完全なビュー依存の2D先行が原因で、依然として難しい課題である。
多視点画像からのみ正確な2Dレンダリングを可能にする暗黙的なニューラルシーン表現の最近の進歩を目撃しているが、単眼で3Dシーンを理解できる研究はほとんどない。
本稿では、3次元空間と2次元空間の両方において正確な意味論と幾何を生成するため、推定画像レベルのノイズを3次元に引き上げるニューラルネットワークセマンティック再構成手法MOSEを提案する。
本手法の鍵となる動機は,学習中のセマンティクスの局所的な整合性を促進するためのガイダンスとして,ジェネリッククラスに依存しないセマンティクスマスクを活用することである。
セマンティクスの助けを借りて、テクスチャのない領域にスムーズな正規化を適用することで、幾何とセマンティクスの相互利益を実現する。
ScanNetデータセットの実験により、MOSEは3Dセマンティックセグメンテーション、2Dセマンティックセグメンテーション、および3D表面再構成といったタスクにおいて、すべてのメトリクスにおいて、関連するベースラインよりも優れています。
関連論文リスト
- Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Mask3D: Pre-training 2D Vision Transformers by Learning Masked 3D Priors [29.419069066603438]
本研究では,既存の大規模RGB-Dデータを活用するMask3Dを提案する。
我々は,Mask3Dが強力な2D ViTバックボーンに3D先行情報を埋め込むのに特に有効であることを実証した。
論文 参考訳(メタデータ) (2023-02-28T16:45:21Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Monocular 3D Object Reconstruction with GAN Inversion [122.96094885939146]
MeshInversionはテクスチャ化された3Dメッシュの再構築を改善するための新しいフレームワークである。
これは、3Dテクスチャメッシュ合成のために事前訓練された3D GANの生成前を利用する。
本フレームワークは,観察部と観察部の両方で一貫した形状とテクスチャを有する忠実な3次元再構成を実現する。
論文 参考訳(メタデータ) (2022-07-20T17:47:22Z) - Self-Supervised Image Representation Learning with Geometric Set
Consistency [50.12720780102395]
本稿では,3次元幾何整合性に基づく自己教師付き画像表現学習法を提案する。
具体的には、画像ビュー内の特徴整合性を強化するために、コントラスト学習フレームワークに3次元幾何学的整合性を導入する。
論文 参考訳(メタデータ) (2022-03-29T08:57:33Z) - 3D Shape Reconstruction from 2D Images with Disentangled Attribute Flow [61.62796058294777]
単一の2D画像から3D形状を再構築することは難しい作業だ。
従来の手法の多くは3次元再構成作業における意味的属性の抽出に苦慮している。
本稿では,3DAttriFlowを用いて,入力画像の異なる意味レベルから意味的属性を抽出する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T02:03:31Z) - NeSF: Neural Semantic Fields for Generalizable Semantic Segmentation of
3D Scenes [25.26518805603798]
NeSFは、ポーズされたRGB画像のみから3Dセマンティックフィールドを生成する方法である。
本手法は,訓練に2次元の監督しか必要としない,真に密集した3次元シーンセグメンテーションを提供する最初の方法である。
論文 参考訳(メタデータ) (2021-11-25T21:44:54Z) - Semantic Implicit Neural Scene Representations With Semi-Supervised
Training [47.61092265963234]
その結果,暗黙的なシーン表現がポイントごとのセマンティックセマンティックセグメンテーションに活用できることが示唆された。
我々の手法は単純で汎用的で、数個のラベル付き2Dセグメンテーションマスクしか必要としない。
意味的に認識された暗黙的なニューラルシーン表現のための2つの新しい応用を探索する。
論文 参考訳(メタデータ) (2020-03-28T00:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。