論文の概要: Neural Implicit Dense Semantic SLAM
- arxiv url: http://arxiv.org/abs/2304.14560v1
- Date: Thu, 27 Apr 2023 23:03:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 15:34:35.772945
- Title: Neural Implicit Dense Semantic SLAM
- Title(参考訳): ニューラルインプシトリ・デンス・セマンティックSLAM
- Authors: Yasaman Haghighi, Suryansh Kumar, Jean Philippe Thiran, Luc Van Gool
- Abstract要約: 本稿では,屋内シーンの視覚的同時マッピング問題を解決するための効率的なオンラインフレームワークを提案する。
我々は、RGB-Dフレームを入力として仮定する既存の手法とは対照的に、現代の意味論的 V-SLAM に対する以下の命題を主張する。
我々は、テスト時に正確なトラッキング、マッピング、セマンティックラベリングを提供するいくつかの人気のあるベンチマークデータセットに関する広範な実験を通して示す。
- 参考スコア(独自算出の注目度): 83.04331351572277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an efficient online framework to solve the well-known
semantic Visual Simultaneous Localization and Mapping (V-SLAM) problem for
indoor scenes leveraging the advantages of neural implicit scene
representation. Existing methods on similar lines, such as NICE-SLAM, has some
critical practical limitations to put to use for such an important indoor scene
understanding problem. To this end, we contend for the following proposition
for modern semantic V-SLAM contrary to existing methods assuming RGB-D frames
as input (i) For a rigid scene, robust and accurate camera motion could be
computed with disentangled tracking and 3D mapping pipeline. (ii) Using neural
fields, a dense and multifaceted scene representation of SDF, semantics, RGB,
and depth is provided memory efficiently. (iii) Rather than using every frame,
we demonstrate that the set of keyframes is sufficient to learn excellent scene
representation, thereby improving the pipeline's train time. (iv) Multiple
local mapping networks could be used to extend the pipeline for large-scale
scenes. We show via extensive experiments on several popular benchmark datasets
that our approach offers accurate tracking, mapping, and semantic labeling at
test time even with noisy and highly sparse depth measurements. Later in the
paper, we show that our pipeline can easily extend to RGB image input. Overall,
the proposed pipeline offers a favorable solution to an important scene
understanding task that can assist in diverse robot visual perception and
related problems.
- Abstract(参考訳): 本稿では,神経的暗黙的シーン表現の利点を活かし,室内シーンにおけるセマンティックビジュアル同時配置・マッピング(v-slam)問題を解くための効率的なオンラインフレームワークを提案する。
NICE-SLAMのような類似の路線上の既存の方法には、そのような重要な屋内シーン理解問題に使用するための重要な実用的制約がある。
この目的のために、RGB-D フレームを入力として仮定する既存の手法とは対照的に、現代の意味論的 V-SLAM に対する以下の命題を主張する。
(i) 厳密なシーンでは、3Dマッピング・パイプラインを用いて、頑健で正確なカメラの動きを計算できる。
(ii)ニューラルネットワークを用いて、sdf、セマンティクス、rgb、奥行きの濃密で多面的なシーン表現を効率的に提供する。
(iii)各フレームを使用するのではなく,キーフレームの集合が優れたシーン表現を学習するのに十分であることを示し,パイプラインの走行時間を改善する。
(iv)大規模シーンのパイプラインを拡張するために複数のローカルマッピングネットワークが利用可能である。
提案手法は, ノイズの多い深度測定でも, 精度の高いトラッキング, マッピング, セマンティックラベリングをテスト時に提供するという, 一般的なベンチマークデータセットの広範な実験を通じて示す。
後述の論文では,パイプラインがRGB画像入力に容易に拡張可能であることを示す。
全体として、提案したパイプラインは、多様なロボット視覚知覚と関連する問題を支援する重要なシーン理解タスクに対する好適な解決策を提供する。
関連論文リスト
- Visual Localization in 3D Maps: Comparing Point Cloud, Mesh, and NeRF Representations [8.522160106746478]
様々な3次元地図表現にまたがる単一カメラ画像のローカライズが可能なグローバルな視覚的ローカライゼーションシステムを提案する。
本システムは,シーンの新たなビューを合成し,RGBと深度画像のペアを作成することでデータベースを生成する。
NeRF合成画像は、クエリ画像を平均72%の成功率でローカライズし、優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-21T19:37:17Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - DeepFusion: Real-Time Dense 3D Reconstruction for Monocular SLAM using
Single-View Depth and Gradient Predictions [22.243043857097582]
DeepFusionは、GPU上でリアルタイムに高密度な再構成を生成することができる。
半密度多視点ステレオアルゴリズムの出力とCNNの深さと予測を確率的に融合する。
合成および実世界のデータセットのパフォーマンスに基づいて、DeepFusionは、少なくとも他の同等のシステムと同様に、実行可能であることを実証する。
論文 参考訳(メタデータ) (2022-07-25T14:55:26Z) - Semi-Perspective Decoupled Heatmaps for 3D Robot Pose Estimation from
Depth Maps [66.24554680709417]
協調環境における労働者とロボットの正確な3D位置を知ることは、いくつかの実際のアプリケーションを可能にする。
本研究では、深度デバイスと深度ニューラルネットワークに基づく非侵襲的なフレームワークを提案し、外部カメラからロボットの3次元ポーズを推定する。
論文 参考訳(メタデータ) (2022-07-06T08:52:12Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - Towards Dense People Detection with Deep Learning and Depth images [9.376814409561726]
本稿では,1つの深度画像から複数の人物を検出するDNNシステムを提案する。
我々のニューラルネットワークは深度画像を処理し、画像座標の確率マップを出力する。
我々は、この戦略が効果的であることを示し、トレーニング中に使用するものと異なるシーンで動作するように一般化したネットワークを創出する。
論文 参考訳(メタデータ) (2020-07-14T16:43:02Z) - OmniSLAM: Omnidirectional Localization and Dense Mapping for
Wide-baseline Multi-camera Systems [88.41004332322788]
超広視野魚眼カメラ(FOV)を用いた広視野多視点ステレオ構成のための全方向位置決めと高密度マッピングシステムを提案する。
より実用的で正確な再構築のために、全方向深度推定のための改良された軽量のディープニューラルネットワークを導入する。
我々は全方位深度推定をビジュアル・オドメトリー(VO)に統合し,大域的整合性のためのループ閉鎖モジュールを付加する。
論文 参考訳(メタデータ) (2020-03-18T05:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。