論文の概要: Neural Implicit Dense Semantic SLAM
- arxiv url: http://arxiv.org/abs/2304.14560v2
- Date: Tue, 9 May 2023 13:58:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 15:29:36.299882
- Title: Neural Implicit Dense Semantic SLAM
- Title(参考訳): ニューラルインプシトリ・デンス・セマンティックSLAM
- Authors: Yasaman Haghighi, Suryansh Kumar, Jean-Philippe Thiran, Luc Van Gool
- Abstract要約: 本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
- 参考スコア(独自算出の注目度): 83.04331351572277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Simultaneous Localization and Mapping (vSLAM) is a widely used
technique in robotics and computer vision that enables a robot to create a map
of an unfamiliar environment using a camera sensor while simultaneously
tracking its position over time. In this paper, we propose a novel RGBD vSLAM
algorithm that can learn a memory-efficient, dense 3D geometry, and semantic
segmentation of an indoor scene in an online manner. Our pipeline combines
classical 3D vision-based tracking and loop closing with neural fields-based
mapping. The mapping network learns the SDF of the scene as well as RGB, depth,
and semantic maps of any novel view using only a set of keyframes.
Additionally, we extend our pipeline to large scenes by using multiple local
mapping networks. Extensive experiments on well-known benchmark datasets
confirm that our approach provides robust tracking, mapping, and semantic
labeling even with noisy, sparse, or no input depth. Overall, our proposed
algorithm can greatly enhance scene perception and assist with a range of robot
control problems.
- Abstract(参考訳): 視覚同時局在マッピング(visual concurrent localization and mapping, vslam)は、ロボットがカメラセンサーを使って未知の環境の地図を作成できるロボットとコンピュータビジョンで広く使われている技術である。
本稿では,RGBD vSLAMアルゴリズムを提案する。このアルゴリズムは,屋内シーンのメモリ効率,密度の高い3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習することができる。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
マッピングネットワークは、シーンのSDFと、キーフレームのセットのみを使用して、新しいビューのRGB、深さ、セマンティックマップを学習する。
さらに、複数のローカルマッピングネットワークを使用することで、パイプラインを大きなシーンに拡張する。
既知のベンチマークデータセットに対する大規模な実験により、我々のアプローチは、ノイズ、スパース、入力深度のない場合でも、堅牢なトラッキング、マッピング、セマンティックラベリングを提供することを確認した。
全体として,提案アルゴリズムはシーン知覚を大きく向上させ,ロボット制御の幅広い課題を支援できる。
関連論文リスト
- Visual Localization in 3D Maps: Comparing Point Cloud, Mesh, and NeRF Representations [8.522160106746478]
様々な3次元地図表現にまたがる単一カメラ画像のローカライズが可能なグローバルな視覚的ローカライゼーションシステムを提案する。
本システムは,シーンの新たなビューを合成し,RGBと深度画像のペアを作成することでデータベースを生成する。
NeRF合成画像は、クエリ画像を平均72%の成功率でローカライズし、優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-21T19:37:17Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - DeepFusion: Real-Time Dense 3D Reconstruction for Monocular SLAM using
Single-View Depth and Gradient Predictions [22.243043857097582]
DeepFusionは、GPU上でリアルタイムに高密度な再構成を生成することができる。
半密度多視点ステレオアルゴリズムの出力とCNNの深さと予測を確率的に融合する。
合成および実世界のデータセットのパフォーマンスに基づいて、DeepFusionは、少なくとも他の同等のシステムと同様に、実行可能であることを実証する。
論文 参考訳(メタデータ) (2022-07-25T14:55:26Z) - Semi-Perspective Decoupled Heatmaps for 3D Robot Pose Estimation from
Depth Maps [66.24554680709417]
協調環境における労働者とロボットの正確な3D位置を知ることは、いくつかの実際のアプリケーションを可能にする。
本研究では、深度デバイスと深度ニューラルネットワークに基づく非侵襲的なフレームワークを提案し、外部カメラからロボットの3次元ポーズを推定する。
論文 参考訳(メタデータ) (2022-07-06T08:52:12Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - Towards Dense People Detection with Deep Learning and Depth images [9.376814409561726]
本稿では,1つの深度画像から複数の人物を検出するDNNシステムを提案する。
我々のニューラルネットワークは深度画像を処理し、画像座標の確率マップを出力する。
我々は、この戦略が効果的であることを示し、トレーニング中に使用するものと異なるシーンで動作するように一般化したネットワークを創出する。
論文 参考訳(メタデータ) (2020-07-14T16:43:02Z) - OmniSLAM: Omnidirectional Localization and Dense Mapping for
Wide-baseline Multi-camera Systems [88.41004332322788]
超広視野魚眼カメラ(FOV)を用いた広視野多視点ステレオ構成のための全方向位置決めと高密度マッピングシステムを提案する。
より実用的で正確な再構築のために、全方向深度推定のための改良された軽量のディープニューラルネットワークを導入する。
我々は全方位深度推定をビジュアル・オドメトリー(VO)に統合し,大域的整合性のためのループ閉鎖モジュールを付加する。
論文 参考訳(メタデータ) (2020-03-18T05:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。