論文の概要: S4R: Self-Supervised Semantic Scene Reconstruction from RGB-D Scans
- arxiv url: http://arxiv.org/abs/2302.03640v1
- Date: Tue, 7 Feb 2023 17:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 15:30:39.545930
- Title: S4R: Self-Supervised Semantic Scene Reconstruction from RGB-D Scans
- Title(参考訳): S4R:RGB-Dスキャンによる自己監督型セマンティックシーン再構築
- Authors: Junwen Huang, Alexey Artemorv, Yujin Chen, Shuaifeng Zhi, Kai Xu,
Matthias Niessner
- Abstract要約: 本稿では,数枚のRGB-D画像からの幾何学的完備化,彩色化,意味マッピングを両立させる,エンドツーエンドのトレーニング可能なソリューションを提案する。
実世界の3Dスキャンの完成とセマンティックセマンティックセグメンテーションに対処するため,本手法は我々の知る限り,最初の自己管理手法である。
- 参考スコア(独自算出の注目度): 10.196100262824428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most deep learning approaches to comprehensive semantic modeling of 3D indoor
spaces require costly dense annotations in the 3D domain. In this work, we
explore a central 3D scene modeling task, namely, semantic scene
reconstruction, using a fully self-supervised approach. To this end, we design
a trainable model that employs both incomplete 3D reconstructions and their
corresponding source RGB-D images, fusing cross-domain features into volumetric
embeddings to predict complete 3D geometry, color, and semantics. Our key
technical innovation is to leverage differentiable rendering of color and
semantics, using the observed RGB images and a generic semantic segmentation
model as color and semantics supervision, respectively. We additionally develop
a method to synthesize an augmented set of virtual training views complementing
the original real captures, enabling more efficient self-supervision for
semantics. In this work we propose an end-to-end trainable solution jointly
addressing geometry completion, colorization, and semantic mapping from a few
RGB-D images, without 3D or 2D ground-truth. Our method is the first, to our
knowledge, fully self-supervised method addressing completion and semantic
segmentation of real-world 3D scans. It performs comparably well with the 3D
supervised baselines, surpasses baselines with 2D supervision on real datasets,
and generalizes well to unseen scenes.
- Abstract(参考訳): 3次元屋内空間の包括的セマンティックモデリングへの深層学習アプローチは、3次元領域における高コストなアノテーションを必要とする。
本研究は, セマンティックシーン再構築という中心的な3次元シーンモデリングタスクを, 完全自己教師型アプローチを用いて検討する。
この目的のために,不完全な3次元再構成と対応するRGB-D画像の両方を用いて,クロスドメイン特徴をボリューム埋め込みに融合させて,完全な3次元形状,色,意味を予測できるトレーニング可能なモデルを設計する。
我々の重要な技術革新は、観察されたRGB画像とジェネリックセマンティックセグメンテーションモデルを用いて、色と意味の異なるレンダリングを活用することである。
さらに,実際の実写を補完する拡張仮想学習ビューを合成する手法を開発し,意味論に対するより効率的な自己スーパービジョンを実現する。
本研究では,3次元および2次元の接地構造を伴わない,数枚のRGB-D画像からの幾何学的完備化,色化,意味マッピングを両立するエンドツーエンドのトレーニング可能なソリューションを提案する。
本手法は,実世界の3dスキャンの完了と意味セグメンテーションに対応する完全自己教師あり手法である。
3d教師付きベースラインと相性が良く、実際のデータセットの2d監督でベースラインを上回り、見えないシーンにうまく一般化する。
関連論文リスト
- MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors [11.118490283303407]
画像レベルの雑音を3次元に引き上げるニューラルネットワークセマンティック・リコンストラクション手法を提案する。
本手法は3次元空間と2次元空間の両方で正確な意味論と幾何学を生成する。
論文 参考訳(メタデータ) (2024-09-21T05:12:13Z) - ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。
組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T05:57:01Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - Mask3D: Pre-training 2D Vision Transformers by Learning Masked 3D Priors [29.419069066603438]
本研究では,既存の大規模RGB-Dデータを活用するMask3Dを提案する。
我々は,Mask3Dが強力な2D ViTバックボーンに3D先行情報を埋め込むのに特に有効であることを実証した。
論文 参考訳(メタデータ) (2023-02-28T16:45:21Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - 3D Shape Reconstruction from 2D Images with Disentangled Attribute Flow [61.62796058294777]
単一の2D画像から3D形状を再構築することは難しい作業だ。
従来の手法の多くは3次元再構成作業における意味的属性の抽出に苦慮している。
本稿では,3DAttriFlowを用いて,入力画像の異なる意味レベルから意味的属性を抽出する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T02:03:31Z) - NeSF: Neural Semantic Fields for Generalizable Semantic Segmentation of
3D Scenes [25.26518805603798]
NeSFは、ポーズされたRGB画像のみから3Dセマンティックフィールドを生成する方法である。
本手法は,訓練に2次元の監督しか必要としない,真に密集した3次元シーンセグメンテーションを提供する最初の方法である。
論文 参考訳(メタデータ) (2021-11-25T21:44:54Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Semantic Correspondence via 2D-3D-2D Cycle [58.023058561837686]
本稿では,3次元領域に利用して意味的対応を予測するための新しい手法を提案する。
提案手法は,標準的なセマンティックベンチマークにおいて比較,さらに優れた結果を与えることを示す。
論文 参考訳(メタデータ) (2020-04-20T05:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。