論文の概要: DSP-SLAM: Object Oriented SLAM with Deep Shape Priors
- arxiv url: http://arxiv.org/abs/2108.09481v1
- Date: Sat, 21 Aug 2021 10:00:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:33:14.061820
- Title: DSP-SLAM: Object Oriented SLAM with Deep Shape Priors
- Title(参考訳): DSP-SLAM: 深い形状を持つオブジェクト指向SLAM
- Authors: Jingwen Wang, Martin R\"unz, Lourdes Agapito
- Abstract要約: 対象物に対する高密度3次元モデルのリッチで正確な関節マップを構築するオブジェクト指向SLAMシステムを提案する。
DSP-SLAMは特徴ベースのSLAMシステムによって再構築された3Dポイントクラウドを入力として取り込む。
本評価では,近年の深層構造復元法に対して,物体の姿勢と形状の復元が改善したことを示す。
- 参考スコア(独自算出の注目度): 16.867669408751507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose DSP-SLAM, an object-oriented SLAM system that builds a rich and
accurate joint map of dense 3D models for foreground objects, and sparse
landmark points to represent the background. DSP-SLAM takes as input the 3D
point cloud reconstructed by a feature-based SLAM system and equips it with the
ability to enhance its sparse map with dense reconstructions of detected
objects. Objects are detected via semantic instance segmentation, and their
shape and pose is estimated using category-specific deep shape embeddings as
priors, via a novel second order optimization. Our object-aware bundle
adjustment builds a pose-graph to jointly optimize camera poses, object
locations and feature points. DSP-SLAM can operate at 10 frames per second on 3
different input modalities: monocular, stereo, or stereo+LiDAR. We demonstrate
DSP-SLAM operating at almost frame rate on monocular-RGB sequences from the
Friburg and Redwood-OS datasets, and on stereo+LiDAR sequences on the KITTI
odometry dataset showing that it achieves high-quality full object
reconstructions, even from partial observations, while maintaining a consistent
global map. Our evaluation shows improvements in object pose and shape
reconstruction with respect to recent deep prior-based reconstruction methods
and reductions in camera tracking drift on the KITTI dataset.
- Abstract(参考訳): DSP-SLAMはオブジェクト指向SLAMシステムであり,前景オブジェクトのための高密度3次元モデルのリッチで高精度な関節マップを構築し,背景を表わすランドマークポイントを疎外する。
DSP-SLAMは特徴に基づくSLAMシステムによって再構成された3次元点雲を入力として、検出された物体の密な再構成でスパースマップを強化する能力を備える。
オブジェクトはセマンティックなインスタンスセグメンテーションによって検出され、その形状とポーズはカテゴリ固有の深部形状の埋め込みを先行として、新しい2階最適化によって推定される。
我々のオブジェクト認識バンドル調整は、ポーズグラフを構築し、カメラポーズ、オブジェクト位置、特徴点を共同で最適化する。
DSP-SLAMは、モノクロ、ステレオ、ステレオ+LiDARの3つの異なる入力モードで毎秒10フレームで動作する。
本研究では,フリブルク・レッドウッド・osデータセットの単眼rgb配列とキッティオドメトリーデータセットのステレオ+ライダー配列のほぼフレームレートで動作するdsp-slamを,部分的観測からでも高品質な完全なオブジェクト再構成を実現するとともに,一貫したグローバルマップを維持しながら実証する。
KITTIデータセット上でのカメラトラッキングドリフトの低減と,近年の深部事前再構成手法によるオブジェクトのポーズと形状復元の改善を示す。
関連論文リスト
- MM3DGS SLAM: Multi-modal 3D Gaussian Splatting for SLAM Using Vision, Depth, and Inertial Measurements [59.70107451308687]
カメラ画像と慣性測定による地図表現に3Dガウスアンを用いることで、精度の高いSLAMが実現できることを示す。
我々の手法であるMM3DGSは、より高速なスケール認識と軌道追跡の改善により、事前レンダリングの限界に対処する。
また,カメラと慣性測定ユニットを備えた移動ロボットから収集したマルチモーダルデータセットUT-MMもリリースした。
論文 参考訳(メタデータ) (2024-04-01T04:57:41Z) - TwistSLAM++: Fusing multiple modalities for accurate dynamic semantic
SLAM [0.0]
TwistSLAM++は、ステレオ画像とLiDAR情報を融合するセマンティックでダイナミックなSLAMシステムである。
従来のベンチマークでは,マルチモーダル情報に基づく融合手法によりオブジェクト追跡の精度が向上していることが示されている。
論文 参考訳(メタデータ) (2022-09-16T12:28:21Z) - Visual-Inertial Multi-Instance Dynamic SLAM with Object-level
Relocalisation [14.302118093865849]
密結合型ビジュアル・慣性オブジェクトレベルのマルチインスタンス動的SLAMシステムを提案する。
カメラのポーズ、速度、IMUバイアスを強く最適化し、環境の高密度な3D再構成オブジェクトレベルマップを構築することができる。
論文 参考訳(メタデータ) (2022-08-08T17:13:24Z) - RBGNet: Ray-based Grouping for 3D Object Detection [104.98776095895641]
本稿では,点雲からの正確な3次元物体検出のための投票型3次元検出器RBGNetフレームワークを提案する。
決定された光線群を用いて物体表面上の点方向の特徴を集約する。
ScanNet V2 と SUN RGB-D による最先端の3D 検出性能を実現する。
論文 参考訳(メタデータ) (2022-04-05T14:42:57Z) - Joint stereo 3D object detection and implicit surface reconstruction [39.30458073540617]
本稿では,SO(3)の正確なオブジェクト指向を復元し,ステレオRGB画像から暗黙的な剛性形状を同時に予測できる学習ベースのフレームワークS-3D-RCNNを提案する。
方向推定のためには、局所的な外観を観測角度にマッピングする従来の研究とは対照的に、意味のある幾何学的表現(IGR)を抽出して進歩的なアプローチを提案する。
このアプローチは、知覚強度を1つか2つのビューからオブジェクト部分座標に変換するディープモデルにより、カメラ座標系において、直接自我中心のオブジェクト指向推定を実現する。
3次元境界ボックス内におけるより詳細な記述を実現するため,ステレオ画像からの暗黙的形状推定問題について検討する。
論文 参考訳(メタデータ) (2021-11-25T05:52:30Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z) - ODAM: Object Detection, Association, and Mapping using Posed RGB Video [36.16010611723447]
ポーズ付きRGBビデオを用いた3次元物体検出・アソシエーション・マッピングシステムであるODAMについて述べる。
提案システムは,ディープラーニングのフロントエンドを用いて,与えられたRGBフレームから3Dオブジェクトを検出し,グラフニューラルネットワーク(GNN)を用いてグローバルなオブジェクトベースマップに関連付ける。
論文 参考訳(メタデータ) (2021-08-23T13:28:10Z) - Aug3D-RPN: Improving Monocular 3D Object Detection by Synthetic Images
with Virtual Depth [64.29043589521308]
仮想深度で画像を合成することでトレーニングデータを増強するレンダリングモジュールを提案する。
レンダリングモジュールは、RGB画像と対応するスパース深度画像とを入力として、さまざまなフォトリアリスティック合成画像を出力する。
さらに,深度推定タスクを通じて共同で最適化することで,検出モデルを改善する補助モジュールを導入する。
論文 参考訳(メタデータ) (2021-07-28T11:00:47Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - RfD-Net: Point Scene Understanding by Semantic Instance Reconstruction [19.535169371240073]
本稿では,高密度物体表面を直接点雲から検出・再構成するRfD-Netを提案する。
インスタンス再構成を大域的オブジェクトローカライゼーションと局所形状予測に分離する。
我々のアプローチは、オブジェクト再構成において、最先端の技術を一貫して上回り、メッシュIoUの11以上を改善します。
論文 参考訳(メタデータ) (2020-11-30T12:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。