Fugu-MT 論文翻訳(概要): S4R: Self-Supervised Semantic Scene Reconstruction from RGB-D Scans

論文の概要: S4R: Self-Supervised Semantic Scene Reconstruction from RGB-D Scans

arxiv url: http://arxiv.org/abs/2302.03640v1
Date: Tue, 7 Feb 2023 17:47:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-08 15:30:39.545930
Title: S4R: Self-Supervised Semantic Scene Reconstruction from RGB-D Scans
Title（参考訳）: S4R:RGB-Dスキャンによる自己監督型セマンティックシーン再構築
Authors: Junwen Huang, Alexey Artemorv, Yujin Chen, Shuaifeng Zhi, Kai Xu, Matthias Niessner
Abstract要約: 本稿では,数枚のRGB-D画像からの幾何学的完備化,彩色化,意味マッピングを両立させる,エンドツーエンドのトレーニング可能なソリューションを提案する。実世界の3Dスキャンの完成とセマンティックセマンティックセグメンテーションに対処するため,本手法は我々の知る限り,最初の自己管理手法である。
参考スコア（独自算出の注目度）: 10.196100262824428
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most deep learning approaches to comprehensive semantic modeling of 3D indoor spaces require costly dense annotations in the 3D domain. In this work, we explore a central 3D scene modeling task, namely, semantic scene reconstruction, using a fully self-supervised approach. To this end, we design a trainable model that employs both incomplete 3D reconstructions and their corresponding source RGB-D images, fusing cross-domain features into volumetric embeddings to predict complete 3D geometry, color, and semantics. Our key technical innovation is to leverage differentiable rendering of color and semantics, using the observed RGB images and a generic semantic segmentation model as color and semantics supervision, respectively. We additionally develop a method to synthesize an augmented set of virtual training views complementing the original real captures, enabling more efficient self-supervision for semantics. In this work we propose an end-to-end trainable solution jointly addressing geometry completion, colorization, and semantic mapping from a few RGB-D images, without 3D or 2D ground-truth. Our method is the first, to our knowledge, fully self-supervised method addressing completion and semantic segmentation of real-world 3D scans. It performs comparably well with the 3D supervised baselines, surpasses baselines with 2D supervision on real datasets, and generalizes well to unseen scenes.
Abstract（参考訳）: 3次元屋内空間の包括的セマンティックモデリングへの深層学習アプローチは、3次元領域における高コストなアノテーションを必要とする。本研究は, セマンティックシーン再構築という中心的な3次元シーンモデリングタスクを, 完全自己教師型アプローチを用いて検討する。この目的のために,不完全な3次元再構成と対応するRGB-D画像の両方を用いて,クロスドメイン特徴をボリューム埋め込みに融合させて,完全な3次元形状,色,意味を予測できるトレーニング可能なモデルを設計する。我々の重要な技術革新は、観察されたRGB画像とジェネリックセマンティックセグメンテーションモデルを用いて、色と意味の異なるレンダリングを活用することである。さらに,実際の実写を補完する拡張仮想学習ビューを合成する手法を開発し,意味論に対するより効率的な自己スーパービジョンを実現する。本研究では,3次元および2次元の接地構造を伴わない,数枚のRGB-D画像からの幾何学的完備化,色化,意味マッピングを両立するエンドツーエンドのトレーニング可能なソリューションを提案する。本手法は,実世界の3dスキャンの完了と意味セグメンテーションに対応する完全自己教師あり手法である。 3d教師付きベースラインと相性が良く、実際のデータセットの2d監督でベースラインを上回り、見えないシーンにうまく一般化する。

関連論文リスト

Ov3R: Open-Vocabulary Semantic 3D Reconstruction from RGB Videos [69.21508595833623]
Ov3Rは、RGBビデオストリームからのセマンティック3D再構成のためのフレームワークである。 CLIP3Rは、オブジェクトレベルのセマンティクスを埋め込みながら、重複するクリップから高密度なポイントマップを予測する。 2D-3D OVSは、空間的、幾何学的、意味的な手がかりを統合した融合記述子を学習することで、2D機能を3Dに持ち上げる。
論文参考訳（メタデータ） (2025-07-29T17:55:58Z)
Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。 UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文参考訳（メタデータ） (2025-03-13T17:56:22Z)
Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。我々は、FreeGSが複雑なデータ前処理作業の負荷を回避しつつ、最先端のメソッドと互換性があることを示す。
論文参考訳（メタデータ） (2024-11-29T08:52:32Z)
MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors [11.118490283303407]
画像レベルの雑音を3次元に引き上げるニューラルネットワークセマンティック・リコンストラクション手法を提案する。本手法は3次元空間と2次元空間の両方で正確な意味論と幾何学を生成する。
論文参考訳（メタデータ） (2024-09-21T05:12:13Z)
ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文参考訳（メタデータ） (2024-08-30T05:57:01Z)
ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文参考訳（メタデータ） (2023-11-29T20:30:18Z)
Mask3D: Pre-training 2D Vision Transformers by Learning Masked 3D Priors [29.419069066603438]
本研究では,既存の大規模RGB-Dデータを活用するMask3Dを提案する。我々は,Mask3Dが強力な2D ViTバックボーンに3D先行情報を埋め込むのに特に有効であることを実証した。
論文参考訳（メタデータ） (2023-02-28T16:45:21Z)
MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文参考訳（メタデータ） (2022-08-18T00:48:15Z)
3D Shape Reconstruction from 2D Images with Disentangled Attribute Flow [61.62796058294777]
単一の2D画像から3D形状を再構築することは難しい作業だ。従来の手法の多くは3次元再構成作業における意味的属性の抽出に苦慮している。本稿では,3DAttriFlowを用いて,入力画像の異なる意味レベルから意味的属性を抽出する手法を提案する。
論文参考訳（メタデータ） (2022-03-29T02:03:31Z)
NeSF: Neural Semantic Fields for Generalizable Semantic Segmentation of 3D Scenes [25.26518805603798]
NeSFは、ポーズされたRGB画像のみから3Dセマンティックフィールドを生成する方法である。本手法は,訓練に2次元の監督しか必要としない,真に密集した3次元シーンセグメンテーションを提供する最初の方法である。
論文参考訳（メタデータ） (2021-11-25T21:44:54Z)
3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文参考訳（メタデータ） (2021-04-06T02:22:24Z)
Semantic Correspondence via 2D-3D-2D Cycle [58.023058561837686]
本稿では,3次元領域に利用して意味的対応を予測するための新しい手法を提案する。提案手法は,標準的なセマンティックベンチマークにおいて比較,さらに優れた結果を与えることを示す。
論文参考訳（メタデータ） (2020-04-20T05:27:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。