論文の概要: MOTSLAM: MOT-assisted monocular dynamic SLAM using single-view depth
estimation
- arxiv url: http://arxiv.org/abs/2210.02038v1
- Date: Wed, 5 Oct 2022 06:07:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 14:11:25.873539
- Title: MOTSLAM: MOT-assisted monocular dynamic SLAM using single-view depth
estimation
- Title(参考訳): MOTSLAM:単視点深度推定を用いたMOT支援単分子動的SLAM
- Authors: Hanwei Zhang, Hideaki Uchiyama, Shintaro Ono and Hiroshi Kawasaki
- Abstract要約: MOTSLAMは動的ビジュアルSLAMシステムであり、動的オブジェクトのポーズとバウンディングボックスの両方を追跡する単分子構成を持つ。
KITTIデータセットを用いた実験により,カメラのエゴモーションとモノラルな動的SLAMでの物体追跡の両方において,我々のシステムが最高の性能を示した。
- 参考スコア(独自算出の注目度): 5.33931801679129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual SLAM systems targeting static scenes have been developed with
satisfactory accuracy and robustness. Dynamic 3D object tracking has then
become a significant capability in visual SLAM with the requirement of
understanding dynamic surroundings in various scenarios including autonomous
driving, augmented and virtual reality. However, performing dynamic SLAM solely
with monocular images remains a challenging problem due to the difficulty of
associating dynamic features and estimating their positions. In this paper, we
present MOTSLAM, a dynamic visual SLAM system with the monocular configuration
that tracks both poses and bounding boxes of dynamic objects. MOTSLAM first
performs multiple object tracking (MOT) with associated both 2D and 3D bounding
box detection to create initial 3D objects. Then, neural-network-based
monocular depth estimation is applied to fetch the depth of dynamic features.
Finally, camera poses, object poses, and both static, as well as dynamic map
points, are jointly optimized using a novel bundle adjustment. Our experiments
on the KITTI dataset demonstrate that our system has reached best performance
on both camera ego-motion and object tracking on monocular dynamic SLAM.
- Abstract(参考訳): 静的シーンをターゲットとした視覚SLAMシステムは、良好な精度と堅牢性で開発されている。
動的3Dオブジェクトトラッキングは、自律運転、拡張現実、バーチャルリアリティーなど、様々なシナリオにおける動的環境を理解する必要性から、視覚SLAMにおいて重要な機能となっている。
しかし, 動的特徴の関連付けや位置推定が困難であるため, 単眼画像のみを用いた動的SLAMの実行は依然として困難な問題である。
本稿では,動的オブジェクトのポーズとバウンディングボックスの両方を追跡するモノクラー構成を持つ動的ビジュアルSLAMシステムMOTSLAMを提案する。
MOTSLAMはまず、2Dと3Dのバウンディングボックス検出に関連する複数のオブジェクト追跡(MOT)を行い、初期3Dオブジェクトを生成する。
次に、ニューラルネットワークに基づく単分子深度推定を適用し、動的特徴の深度を求める。
最後に、カメラポーズ、オブジェクトポーズ、静的および動的マップポイントの両方を、新しいバンドル調整を用いて共同最適化する。
KITTIデータセットを用いた実験により,カメラのエゴモーションとモノラルな動的SLAMでの物体追跡の両方において,我々のシステムが最高の性能を示した。
関連論文リスト
- V3D-SLAM: Robust RGB-D SLAM in Dynamic Environments with 3D Semantic Geometry Voting [1.3493547928462395]
動体とカメラのポーズの相関関係から,高度にダイナミックな環境下での同時位置決めとマッピング(SLAM)は困難である。
2つの軽量再評価段階を経て移動物体を除去するロバストな手法 V3D-SLAM を提案する。
TUM RGB-Dベンチマーク実験により,直近のSLAM法よりも高い性能を示した。
論文 参考訳(メタデータ) (2024-10-15T21:08:08Z) - Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - 3DS-SLAM: A 3D Object Detection based Semantic SLAM towards Dynamic
Indoor Environments [1.4901625182926226]
3DS-SLAM, 3D Semantic SLAMを導入する。
3DS-SLAMは、意味的制約と幾何学的制約の両方を逐次解決する密結合アルゴリズムである。
TUM RGB-Dデータセットの動的シーケンスを平均98.01%改善している。
論文 参考訳(メタデータ) (2023-10-10T07:48:40Z) - Decoupling Dynamic Monocular Videos for Dynamic View Synthesis [50.93409250217699]
動的モノクロビデオからの動的ビュー合成の課題を教師なしで解決する。
具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。
論文 参考訳(メタデータ) (2023-04-04T11:25:44Z) - Attentive and Contrastive Learning for Joint Depth and Motion Field
Estimation [76.58256020932312]
単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは複雑な作業である。
モノクロ映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:45:01Z) - AirDOS: Dynamic SLAM benefits from Articulated Objects [9.045690662672659]
オブジェクト認識SLAM(DOS)は、動的環境におけるロバストな動き推定を可能にするためにオブジェクトレベル情報を利用する。
AirDOSは、動的な調音オブジェクトを組み込むことで、カメラのポーズ推定を改善することができることを示す最初の動的オブジェクト認識SLAMシステムである。
論文 参考訳(メタデータ) (2021-09-21T01:23:48Z) - DynaSLAM II: Tightly-Coupled Multi-Object Tracking and SLAM [2.9822184411723645]
DynaSLAM IIは、ステレオおよびRGB-D構成のための視覚的SLAMシステムであり、マルチオブジェクト追跡機能を密に統合している。
動的物体の追跡はシーン理解のための豊富な手がかりを提供するだけでなく、カメラ追跡にも有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T15:25:30Z) - DOT: Dynamic Object Tracking for Visual SLAM [83.69544718120167]
DOTはインスタンスセグメンテーションとマルチビュー幾何を組み合わせて、動的オブジェクトのマスクを生成する。
実際にどのオブジェクトが動いているかを判断するために、DOTは、潜在的にダイナミックなオブジェクトの最初のインスタンスを抽出し、次に推定されたカメラモーションで、測光再投射誤差を最小限にして、そのようなオブジェクトを追跡する。
提案手法はORB-SLAM 2の精度とロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-09-30T18:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。