論文の概要: Multi-Camera Sensor Fusion for Visual Odometry using Deep Uncertainty
Estimation
- arxiv url: http://arxiv.org/abs/2112.12818v1
- Date: Thu, 23 Dec 2021 19:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 16:47:22.532674
- Title: Multi-Camera Sensor Fusion for Visual Odometry using Deep Uncertainty
Estimation
- Title(参考訳): 深部不確かさ推定を用いた視覚計測のためのマルチカメラセンサフュージョン
- Authors: Nimet Kaygusuz, Oscar Mendez, Richard Bowden
- Abstract要約: 複数の車載カメラからの姿勢推定と不確実性推定の両方を用いて車両の動きを推定する深層センサ融合フレームワークを提案する。
我々は、利用可能な大規模自動運転車データセットnuScenesに対する我々のアプローチを評価した。
- 参考スコア(独自算出の注目度): 34.8860186009308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Odometry (VO) estimation is an important source of information for
vehicle state estimation and autonomous driving. Recently, deep learning based
approaches have begun to appear in the literature. However, in the context of
driving, single sensor based approaches are often prone to failure because of
degraded image quality due to environmental factors, camera placement, etc. To
address this issue, we propose a deep sensor fusion framework which estimates
vehicle motion using both pose and uncertainty estimations from multiple
on-board cameras. We extract spatio-temporal feature representations from a set
of consecutive images using a hybrid CNN - RNN model. We then utilise a Mixture
Density Network (MDN) to estimate the 6-DoF pose as a mixture of distributions
and a fusion module to estimate the final pose using MDN outputs from
multi-cameras. We evaluate our approach on the publicly available, large scale
autonomous vehicle dataset, nuScenes. The results show that the proposed fusion
approach surpasses the state-of-the-art, and provides robust estimates and
accurate trajectories compared to individual camera-based estimations.
- Abstract(参考訳): ビジュアルオドメトリ(VO)推定は、車両の状態推定と自律運転のための重要な情報源である。
近年,深層学習に基づくアプローチが文献に現れ始めている。
しかし、運転においては、環境要因やカメラ配置などにより画質が劣化するため、単一センサベースのアプローチが失敗しがちである。
この問題に対処するために,複数の搭載カメラからの姿勢推定と不確実性推定の両方を用いて車両の動きを推定する深部センサ融合フレームワークを提案する。
ハイブリッドCNN-RNNモデルを用いて、連続した画像の集合から時空間の特徴表現を抽出する。
次に、混合密度ネットワーク(MDN)を用いて6-DoFポーズを分布と融合モジュールの混合として推定し、MDN出力を用いて最終ポーズを推定する。
我々は、利用可能な大規模自動運転車データセットnuScenesに対する我々のアプローチを評価した。
その結果,提案手法は最先端技術を超え,個々のカメラを用いた推定よりもロバストな推定と正確な軌跡が得られた。
関連論文リスト
- Adaptive Fusion of Single-View and Multi-View Depth for Autonomous
Driving [22.58849429006898]
現在のマルチビュー深度推定法やシングルビューおよびマルチビュー融合法は、ノイズのあるポーズ設定で失敗する。
本稿では,高信頼度なマルチビューと単一ビューの結果を適応的に統合する単一ビュー・多ビュー融合深度推定システムを提案する。
本手法は,ロバストネス試験において,最先端のマルチビュー・フュージョン法より優れる。
論文 参考訳(メタデータ) (2024-03-12T11:18:35Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - RelPose: Predicting Probabilistic Relative Rotation for Single Objects
in the Wild [73.1276968007689]
本稿では、任意のオブジェクトの複数の画像からカメラ視点を推定するデータ駆動手法について述べる。
本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-11T17:59:59Z) - AFT-VO: Asynchronous Fusion Transformers for Multi-View Visual Odometry
Estimation [39.351088248776435]
複数のセンサからVOを推定する新しいトランスフォーマーベースのセンサ融合アーキテクチャであるAFT-VOを提案する。
本フレームワークは,非同期マルチビューカメラからの予測と,異なる情報源からの計測の時間的差を考慮に入れたものである。
実験により,VO推定のための多視点融合により,頑健かつ正確な軌道が得られ,難易度と照明条件の両方において高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-06-26T19:29:08Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - A Quality Index Metric and Method for Online Self-Assessment of
Autonomous Vehicles Sensory Perception [164.93739293097605]
本稿では,検出品質指標(DQI)と呼ばれる新しい評価指標を提案し,カメラを用いた物体検出アルゴリズムの性能を評価する。
我々は,提案したDQI評価指標を予測するために,原画像画素とスーパーピクセルを入力として利用するスーパーピクセルベースのアテンションネットワーク(SPA-NET)を開発した。
論文 参考訳(メタデータ) (2022-03-04T22:16:50Z) - MDN-VO: Estimating Visual Odometry with Confidence [34.8860186009308]
視覚オドメトリー(VO)は、ロボット工学や自律システムを含む多くのアプリケーションで使われている。
本研究では、6-DoFのポーズを推定する深層学習に基づくVOモデルと、これらの推定に対する信頼度モデルを提案する。
本実験は,本モデルが故障事例の検出に加えて,最先端の性能を上回ることを示す。
論文 参考訳(メタデータ) (2021-12-23T19:26:04Z) - PDC-Net+: Enhanced Probabilistic Dense Correspondence Network [161.76275845530964]
高度確率密度対応ネットワーク(PDC-Net+)は、精度の高い高密度対応を推定できる。
我々は、堅牢で一般化可能な不確実性予測に適したアーキテクチャと強化されたトレーニング戦略を開発する。
提案手法は,複数の挑戦的幾何マッチングと光学的フローデータセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-28T17:56:41Z) - View Invariant Human Body Detection and Pose Estimation from Multiple
Depth Sensors [0.7080990243618376]
本稿では,複数地点のクラウドソースを用いて,エンドツーエンドの多対人3Dポーズ推定ネットワークであるPoint R-CNNを提案する。
我々は、個別のカメラ故障、様々なターゲットの外観、複雑な散らかったシーンなど、現実の課題をシミュレートする広範囲な実験を行った。
一方、私たちのエンドツーエンドネットワークは、カスケードされた最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-05-08T19:06:28Z) - 6D Camera Relocalization in Ambiguous Scenes via Continuous Multimodal
Inference [67.70859730448473]
あいまいさと不確かさを捉えるマルチモーダルカメラ再ローカライズフレームワークを提案する。
我々は、複数のカメラのポーズ仮説を予測し、それぞれの予測の不確実性も予測する。
あいまいな環境下でのカメラローカライゼーション研究を促進するための新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-04-09T20:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。