論文の概要: A Real-Time Online Learning Framework for Joint 3D Reconstruction and
Semantic Segmentation of Indoor Scenes
- arxiv url: http://arxiv.org/abs/2108.05246v1
- Date: Wed, 11 Aug 2021 14:29:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-08-12 13:27:25.077403
- Title: A Real-Time Online Learning Framework for Joint 3D Reconstruction and
Semantic Segmentation of Indoor Scenes
- Title(参考訳): 屋内シーンの3次元再構成とセマンティックセグメンテーションのためのリアルタイムオンライン学習フレームワーク
- Authors: Davide Menini, Suryansh Kumar, Martin R. Oswald, Erik Sandstrom,
Cristian Sminchisescu, Luc Van Gool
- Abstract要約: 本稿では,屋内シーンの3次元構造とセマンティックラベルを協調的に復元するリアルタイムオンライン視覚フレームワークを提案する。
列車時、ノイズの多い深度マップ、カメラ軌跡、および2Dセマンティックラベルを与えられたニューラルネットワークは、シーン空間に適切なセマンティックラベルでフレームの奥行きを融合させることを学習する。
- 参考スコア(独自算出の注目度): 87.74952229507096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a real-time online vision framework to jointly recover an
indoor scene's 3D structure and semantic label. Given noisy depth maps, a
camera trajectory, and 2D semantic labels at train time, the proposed neural
network learns to fuse the depth over frames with suitable semantic labels in
the scene space. Our approach exploits the joint volumetric representation of
the depth and semantics in the scene feature space to solve this task. For a
compelling online fusion of the semantic labels and geometry in real-time, we
introduce an efficient vortex pooling block while dropping the routing network
in online depth fusion to preserve high-frequency surface details. We show that
the context information provided by the semantics of the scene helps the depth
fusion network learn noise-resistant features. Not only that, it helps overcome
the shortcomings of the current online depth fusion method in dealing with thin
object structures, thickening artifacts, and false surfaces. Experimental
evaluation on the Replica dataset shows that our approach can perform depth
fusion at 37, 10 frames per second with an average reconstruction F-score of
88%, and 91%, respectively, depending on the depth map resolution. Moreover,
our model shows an average IoU score of 0.515 on the ScanNet 3D semantic
benchmark leaderboard.
- Abstract(参考訳): 本稿では,室内シーンの3次元構造と意味的ラベルを共同で復元するリアルタイムオンラインビジョンフレームワークを提案する。
列車時間にノイズの多い深度マップ、カメラ軌跡、および2Dセマンティックラベルを与えられたニューラルネットワークは、シーン空間に適切なセマンティックラベルを持つフレームに深度を融合させることを学習する。
本手法は,シーン特徴空間における深度と意味の連成体積表現を利用してこの問題を解決する。
セマンティックラベルと幾何のオンライン融合をリアルタイムに行うため,高速な表面情報保存のために,オンライン深度融合にルーティングネットワークを落としながら効率的な渦プールブロックを導入する。
シーンのセマンティクスによって提供されるコンテキスト情報により,深層融合ネットワークは耐雑音性のある特徴を学習する。
それだけでなく、現在のオンライン深層融合法の欠点を克服し、薄いオブジェクト構造、厚いアーティファクト、偽表面を扱うのに役立つ。
レプリカデータセットの実験的評価により, 深さマップの解像度によって, 平均復元f-scoreが88%, 91%で, 毎秒37, 10フレームの深度融合が可能となった。
さらに,本モデルはscannet 3d semantic benchmark leaderboard上で平均0.515のiouスコアを示す。
関連論文リスト
- RigNet++: Semantic Assisted Repetitive Image Guided Network for Depth
Completion [31.70022495622075]
画像案内ネットワークにおける繰り返し設計を探索し、徐々に十分に深度を復元する。
前者では,複雑な環境の識別画像の特徴を抽出するために,高密度繰り返し時間ガラスネットワーク(DRHN)を設計する。
後者では,動的畳み込みに基づく反復誘導(RG)モジュールを提案する。
さらに,領域認識型空間伝搬ネットワーク(RASPN)を提案する。
論文 参考訳(メタデータ) (2023-09-01T09:11:20Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Cross-Dimensional Refined Learning for Real-Time 3D Visual Perception
from Monocular Video [2.2299983745857896]
本稿では3次元シーンの幾何学的構造と意味的ラベルを協調的に知覚する新しいリアルタイム能動的学習法を提案する。
本稿では,3次元メッシュと3次元セマンティックラベリングの両方をリアルタイムに抽出する,エンドツーエンドのクロスディメンテーションニューラルネットワーク(CDRNet)を提案する。
論文 参考訳(メタデータ) (2023-03-16T11:53:29Z) - VolumeFusion: Deep Depth Fusion for 3D Scene Reconstruction [71.83308989022635]
本稿では、ディープニューラルネットワークを用いた従来の2段階フレームワークの複製により、解釈可能性と結果の精度が向上することを提唱する。
ネットワークは,1)深部MVS技術を用いた局所深度マップの局所計算,2)深部マップと画像の特徴を融合させて単一のTSDFボリュームを構築する。
異なる視点から取得した画像間のマッチング性能を改善するために,PosedConvと呼ばれる回転不変な3D畳み込みカーネルを導入する。
論文 参考訳(メタデータ) (2021-08-19T11:33:58Z) - NeuralFusion: Online Depth Fusion in Latent Space [77.59420353185355]
潜在特徴空間における深度マップアグリゲーションを学習する新しいオンライン深度マップ融合手法を提案する。
提案手法は,高騒音レベルを処理し,特に測光ステレオベース深度マップに共通する粗悪なアウトレージに対処できる。
論文 参考訳(メタデータ) (2020-11-30T13:50:59Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z) - Shallow2Deep: Indoor Scene Modeling by Single Image Understanding [42.87957414916607]
本稿では,ニューラルネットワークの深い特徴を用いた屋内シーンの自動モデリング手法を提案する。
一つのRGB画像が与えられた場合,本手法は同時に意味内容,3次元幾何学,オブジェクト関係を復元する。
論文 参考訳(メタデータ) (2020-02-22T23:27:22Z) - RoutedFusion: Learning Real-time Depth Map Fusion [73.0378509030908]
深度マップ融合のための新しいリアルタイム能動機械学習手法を提案する。
本稿では,通常の核融合エラーを考慮に入れた非線形更新を予測できるニューラルネットワークを提案する。
本ネットワークは2次元深度ルーティングネットワークと3次元深度融合ネットワークから構成されており,センサ固有のノイズや外れ値の処理を効率的に行う。
論文 参考訳(メタデータ) (2020-01-13T16:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。