論文の概要: DVI-SLAM: A Dual Visual Inertial SLAM Network
- arxiv url: http://arxiv.org/abs/2309.13814v2
- Date: Sun, 26 May 2024 15:48:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 11:58:46.253402
- Title: DVI-SLAM: A Dual Visual Inertial SLAM Network
- Title(参考訳): DVI-SLAM: デュアルビジュアル慣性SLAMネットワーク
- Authors: Xiongfeng Peng, Zhihua Liu, Weiming Li, Ping Tan, SoonYong Cho, Qiang Wang,
- Abstract要約: 本稿では2つの視覚的要素を持つ新しいディープSLAMネットワークを提案する。
提案するネットワークは,両視覚要因の信頼度マップを動的に学習し,調整する。
大規模な実験により,提案手法はいくつかの公開データセットにおいて,最先端の手法を著しく上回っていることが確認された。
- 参考スコア(独自算出の注目度): 31.067716365926845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent deep learning based visual simultaneous localization and mapping (SLAM) methods have made significant progress. However, how to make full use of visual information as well as better integrate with inertial measurement unit (IMU) in visual SLAM has potential research value. This paper proposes a novel deep SLAM network with dual visual factors. The basic idea is to integrate both photometric factor and re-projection factor into the end-to-end differentiable structure through multi-factor data association module. We show that the proposed network dynamically learns and adjusts the confidence maps of both visual factors and it can be further extended to include the IMU factors as well. Extensive experiments validate that our proposed method significantly outperforms the state-of-the-art methods on several public datasets, including TartanAir, EuRoC and ETH3D-SLAM. Specifically, when dynamically fusing the three factors together, the absolute trajectory error for both monocular and stereo configurations on EuRoC dataset has reduced by 45.3% and 36.2% respectively.
- Abstract(参考訳): 近年,深層学習に基づく視覚的同時位置決めマッピング法 (SLAM) が大きな進歩を遂げている。
しかし、視覚情報を完全に利用する方法や、慣性測定ユニット(IMU)と統合する方法については、潜在的な研究価値がある。
本稿では2つの視覚的要素を持つ新しいディープSLAMネットワークを提案する。
基本的な考え方は、光度係数と再射影因子の両方を多要素データアソシエーションモジュールを通じてエンドツーエンドの微分可能な構造に統合することである。
提案するネットワークは、両視覚要因の信頼度マップを動的に学習し、調整し、IMU要因も含めるように拡張可能であることを示す。
大規模な実験により,提案手法は,TartanAir,EuRoC,ETH3D-SLAMなど,いくつかの公開データセットにおいて,最先端の手法を著しく上回ることがわかった。
具体的には、3つの因子を動的に融合させると、EuRoCデータセット上の単分子およびステレオ構成の絶対軌道誤差がそれぞれ45.3%、36.2%減少する。
関連論文リスト
- Double-Shot 3D Shape Measurement with a Dual-Branch Network [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。
PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。
提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できることを示す。
論文 参考訳(メタデータ) (2024-07-19T10:49:26Z) - AlignMiF: Geometry-Aligned Multimodal Implicit Field for LiDAR-Camera
Joint Synthesis [98.3959800235485]
近年,複数のモダリティを単一のフィールド内で探索する手法がいくつか存在しており,異なるモダリティから暗黙的な特徴を共有して再現性能を向上させることを目的としている。
本研究では,LiDAR-カメラ共同合成の多モード暗黙的場に関する包括的解析を行い,その根底にある問題はセンサの誤配にあることを示した。
幾何学的に整合した多モード暗黙の場であるAlignMiFを導入し,2つのモジュール,Geometry-Aware Alignment (GAA) とShared Geometry Initialization (SGI)を提案する。
論文 参考訳(メタデータ) (2024-02-27T13:08:47Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Depth Completion with Multiple Balanced Bases and Confidence for Dense
Monocular SLAM [34.78726455243436]
本稿では,軽量深度補完網をスパースSLAMシステムに統合する新しい手法を提案する。
具体的には,BBC-Netと呼ばれる,高度に最適化されたマルチバス深度補完ネットワークを提案する。
BBC-Netは、オフザシェルキーポイントベースのSLAMシステムによって生成されたスパースポイントを持つ単眼画像から、複数のバランスの取れたベースと信頼マップを予測できる。
論文 参考訳(メタデータ) (2023-09-08T06:15:27Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - UncLe-SLAM: Uncertainty Learning for Dense Neural SLAM [60.575435353047304]
我々は、高密度ニューラルネットワークの同時局所化とマッピング(SLAM)のための不確実性学習フレームワークを提案する。
本稿では,2次元入力データのみから自己教師付きで学習可能なセンサ不確実性推定のためのオンラインフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T16:26:25Z) - A3CLNN: Spatial, Spectral and Multiscale Attention ConvLSTM Neural
Network for Multisource Remote Sensing Data Classification [24.006660419933727]
本稿では,ハイパースペクトル画像(HSI)と光検出・測光(LiDAR)の2つのデータソースを補完する手法を提案する。
我々は,特徴抽出と分類のための2チャネル空間,スペクトル,マルチスケールの長期記憶ニューラルネットワーク(デュアルチャネルA3CLNN)を開発した。
論文 参考訳(メタデータ) (2022-04-09T12:43:32Z) - Deep Two-View Structure-from-Motion Revisited [83.93809929963969]
2次元構造移動(SfM)は3次元再構成と視覚SLAMの基礎となる。
古典パイプラインの適切性を活用することで,深部2視点sfmの問題を再検討することを提案する。
本手法は,1)2つのフレーム間の密対応を予測する光フロー推定ネットワーク,2)2次元光フロー対応から相対カメラポーズを計算する正規化ポーズ推定モジュール,3)エピポーラ幾何を利用して探索空間を縮小し,密対応を洗練し,相対深度マップを推定するスケール不変深さ推定ネットワークからなる。
論文 参考訳(メタデータ) (2021-04-01T15:31:20Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Attention-SLAM: A Visual Monocular SLAM Learning from Human Gaze [19.99938539199779]
本稿では,新しいSLAMアプローチ,すなわちAttention-SLAMを提案する。
SalNavNet(ビジュアル・サリエンシ・モデル)と従来のモノラル・ビジュアル・SLAMを組み合わせている。
Attention-SLAMは、DSO(Direct Sparse Odometry)、ORB-SLAM(ORB-SLAM)、Salient DSO(Salient DSO)などのベンチマークよりも優れていた。
論文 参考訳(メタデータ) (2020-09-15T06:59:12Z) - Pseudo RGB-D for Self-Improving Monocular SLAM and Depth Prediction [72.30870535815258]
モノクロ深度予測のためのCNNは、周囲の環境の3Dマップを構築するための2つの大きく不連続なアプローチを表している。
本稿では,CNN予測深度を利用してRGB-D特徴量に基づくSLAMを行う,狭義の広義の自己改善フレームワークを提案する。
一方、より原理化された幾何学的SLAMの3次元シーン構造とカメラポーズは、新しい広義のベースライン損失により奥行きネットワークに注入される。
論文 参考訳(メタデータ) (2020-04-22T16:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。