論文の概要: S4R: Self-Supervised Semantic Scene Reconstruction from RGB-D Scans
- arxiv url: http://arxiv.org/abs/2302.03640v1
- Date: Tue, 7 Feb 2023 17:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 15:30:39.545930
- Title: S4R: Self-Supervised Semantic Scene Reconstruction from RGB-D Scans
- Title(参考訳): S4R:RGB-Dスキャンによる自己監督型セマンティックシーン再構築
- Authors: Junwen Huang, Alexey Artemorv, Yujin Chen, Shuaifeng Zhi, Kai Xu,
Matthias Niessner
- Abstract要約: 本稿では,数枚のRGB-D画像からの幾何学的完備化,彩色化,意味マッピングを両立させる,エンドツーエンドのトレーニング可能なソリューションを提案する。
実世界の3Dスキャンの完成とセマンティックセマンティックセグメンテーションに対処するため,本手法は我々の知る限り,最初の自己管理手法である。
- 参考スコア(独自算出の注目度): 10.196100262824428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most deep learning approaches to comprehensive semantic modeling of 3D indoor
spaces require costly dense annotations in the 3D domain. In this work, we
explore a central 3D scene modeling task, namely, semantic scene
reconstruction, using a fully self-supervised approach. To this end, we design
a trainable model that employs both incomplete 3D reconstructions and their
corresponding source RGB-D images, fusing cross-domain features into volumetric
embeddings to predict complete 3D geometry, color, and semantics. Our key
technical innovation is to leverage differentiable rendering of color and
semantics, using the observed RGB images and a generic semantic segmentation
model as color and semantics supervision, respectively. We additionally develop
a method to synthesize an augmented set of virtual training views complementing
the original real captures, enabling more efficient self-supervision for
semantics. In this work we propose an end-to-end trainable solution jointly
addressing geometry completion, colorization, and semantic mapping from a few
RGB-D images, without 3D or 2D ground-truth. Our method is the first, to our
knowledge, fully self-supervised method addressing completion and semantic
segmentation of real-world 3D scans. It performs comparably well with the 3D
supervised baselines, surpasses baselines with 2D supervision on real datasets,
and generalizes well to unseen scenes.
- Abstract(参考訳): 3次元屋内空間の包括的セマンティックモデリングへの深層学習アプローチは、3次元領域における高コストなアノテーションを必要とする。
本研究は, セマンティックシーン再構築という中心的な3次元シーンモデリングタスクを, 完全自己教師型アプローチを用いて検討する。
この目的のために,不完全な3次元再構成と対応するRGB-D画像の両方を用いて,クロスドメイン特徴をボリューム埋め込みに融合させて,完全な3次元形状,色,意味を予測できるトレーニング可能なモデルを設計する。
我々の重要な技術革新は、観察されたRGB画像とジェネリックセマンティックセグメンテーションモデルを用いて、色と意味の異なるレンダリングを活用することである。
さらに,実際の実写を補完する拡張仮想学習ビューを合成する手法を開発し,意味論に対するより効率的な自己スーパービジョンを実現する。
本研究では,3次元および2次元の接地構造を伴わない,数枚のRGB-D画像からの幾何学的完備化,色化,意味マッピングを両立するエンドツーエンドのトレーニング可能なソリューションを提案する。
本手法は,実世界の3dスキャンの完了と意味セグメンテーションに対応する完全自己教師あり手法である。
3d教師付きベースラインと相性が良く、実際のデータセットの2d監督でベースラインを上回り、見えないシーンにうまく一般化する。
関連論文リスト
- ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - 3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with
2D Diffusion Models [102.75875255071246]
テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。
2次元拡散モデルから制御可能な外観と幾何学的ガイダンスを付加した3次元メッシュのきめ細かいスタイリングをトリガーする新しい3DStyle-Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2023-11-09T15:51:27Z) - Multi-View Representation is What You Need for Point-Cloud Pre-Training [24.639227390167992]
本稿では,事前学習した2次元ネットワークを利用して3次元表現を学習するポイントクラウド事前学習手法を提案する。
我々は,新しい2次元知識伝達損失の助けを借りて,3次元特徴抽出ネットワークを訓練する。
実験結果から,事前学習したモデルを様々な下流タスクに転送できることが判明した。
論文 参考訳(メタデータ) (2023-06-05T03:14:54Z) - Mask3D: Pre-training 2D Vision Transformers by Learning Masked 3D Priors [29.419069066603438]
本研究では,既存の大規模RGB-Dデータを活用するMask3Dを提案する。
我々は,Mask3Dが強力な2D ViTバックボーンに3D先行情報を埋め込むのに特に有効であることを実証した。
論文 参考訳(メタデータ) (2023-02-28T16:45:21Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Cross-Modal 3D Shape Generation and Manipulation [62.50628361920725]
本稿では,2次元のモダリティと暗黙の3次元表現を共用した多モード生成モデルを提案する。
グレースケールラインスケッチとレンダリングカラー画像の2つの代表的な2次元モーダル性について,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2022-07-24T19:22:57Z) - 3D Shape Reconstruction from 2D Images with Disentangled Attribute Flow [61.62796058294777]
単一の2D画像から3D形状を再構築することは難しい作業だ。
従来の手法の多くは3次元再構成作業における意味的属性の抽出に苦慮している。
本稿では,3DAttriFlowを用いて,入力画像の異なる意味レベルから意味的属性を抽出する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T02:03:31Z) - NeSF: Neural Semantic Fields for Generalizable Semantic Segmentation of
3D Scenes [25.26518805603798]
NeSFは、ポーズされたRGB画像のみから3Dセマンティックフィールドを生成する方法である。
本手法は,訓練に2次元の監督しか必要としない,真に密集した3次元シーンセグメンテーションを提供する最初の方法である。
論文 参考訳(メタデータ) (2021-11-25T21:44:54Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。