論文の概要: AFT-VO: Asynchronous Fusion Transformers for Multi-View Visual Odometry
Estimation
- arxiv url: http://arxiv.org/abs/2206.12946v1
- Date: Sun, 26 Jun 2022 19:29:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 16:26:25.070039
- Title: AFT-VO: Asynchronous Fusion Transformers for Multi-View Visual Odometry
Estimation
- Title(参考訳): AFT-VO:マルチビュービジュアルオドメトリー推定のための非同期核融合変換器
- Authors: Nimet Kaygusuz, Oscar Mendez, Richard Bowden
- Abstract要約: 複数のセンサからVOを推定する新しいトランスフォーマーベースのセンサ融合アーキテクチャであるAFT-VOを提案する。
本フレームワークは,非同期マルチビューカメラからの予測と,異なる情報源からの計測の時間的差を考慮に入れたものである。
実験により,VO推定のための多視点融合により,頑健かつ正確な軌道が得られ,難易度と照明条件の両方において高い性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 39.351088248776435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion estimation approaches typically employ sensor fusion techniques, such
as the Kalman Filter, to handle individual sensor failures. More recently, deep
learning-based fusion approaches have been proposed, increasing the performance
and requiring less model-specific implementations. However, current deep fusion
approaches often assume that sensors are synchronised, which is not always
practical, especially for low-cost hardware. To address this limitation, in
this work, we propose AFT-VO, a novel transformer-based sensor fusion
architecture to estimate VO from multiple sensors. Our framework combines
predictions from asynchronous multi-view cameras and accounts for the time
discrepancies of measurements coming from different sources.
Our approach first employs a Mixture Density Network (MDN) to estimate the
probability distributions of the 6-DoF poses for every camera in the system.
Then a novel transformer-based fusion module, AFT-VO, is introduced, which
combines these asynchronous pose estimations, along with their confidences.
More specifically, we introduce Discretiser and Source Encoding techniques
which enable the fusion of multi-source asynchronous signals.
We evaluate our approach on the popular nuScenes and KITTI datasets. Our
experiments demonstrate that multi-view fusion for VO estimation provides
robust and accurate trajectories, outperforming the state of the art in both
challenging weather and lighting conditions.
- Abstract(参考訳): 運動推定手法は通常、個々のセンサ故障を処理するためにカルマンフィルタのようなセンサー融合技術を用いる。
最近では、ディープラーニングベースの融合アプローチが提案され、性能が向上し、モデル固有の実装が少なくなった。
しかし、現在のディープフュージョンアプローチでは、センサーが同期していると仮定することが多く、これは必ずしも実用的ではない。
そこで本研究では,複数のセンサからvoを推定する新しいトランスフォーマーベースのセンサ融合アーキテクチャであるaft-voを提案する。
本フレームワークは,非同期マルチビューカメラからの予測と,異なるソースからの計測の時間的差を考慮に入れた。
提案手法は,まず混合密度ネットワーク(MDN)を用いて,システム内の全カメラに対する6-DoFポーズの確率分布を推定する。
次に、これらの非同期ポーズ推定と信頼度を組み合わせた新しいトランスフォーマーベースの融合モジュール AFT-VO を導入する。
具体的には、マルチソース非同期信号の融合を可能にするDisdisretiserおよびSource Encoding技術を紹介する。
我々は,一般的な nuScenes と KITTI データセットに対するアプローチを評価した。
実験により,VO推定のための多視点融合により,頑健かつ正確な軌道が得られ,難易度と照明条件の両方において高い性能を発揮することが示された。
関連論文リスト
- Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scenes [56.52618054240197]
本研究では,運転シーンのロバストな意味認識のための条件対応型マルチモーダル融合手法を提案する。
CAFuserは、RGBカメラ入力を用いて環境条件を分類し、複数のセンサの融合を誘導するコンディショントークンを生成する。
MUSESデータセットでは,マルチモーダルパノプティクスセグメンテーションの59.7 PQ,セマンティックセグメンテーションの78.2 mIoU,公開ベンチマークの1位にランクインした。
論文 参考訳(メタデータ) (2024-10-14T17:56:20Z) - Virtual Fusion with Contrastive Learning for Single Sensor-based
Activity Recognition [5.225544155289783]
各種センサはHAR(Human Activity Recognition)に使用することができる。
1つのセンサーがユーザーの動きをその視点で完全に観察できない場合があり、誤った予測を引き起こす。
トレーニング中に複数のタイム同期センサーからラベル付けされていないデータを活用できる新しい方法であるVirtual Fusionを提案する。
論文 参考訳(メタデータ) (2023-12-01T17:03:27Z) - Learning Online Multi-Sensor Depth Fusion [100.84519175539378]
SenFuNetは、センサ固有のノイズと外れ値統計を学習するディープフュージョンアプローチである。
実世界のCoRBSとScene3Dデータセットで様々なセンサーの組み合わせで実験を行う。
論文 参考訳(メタデータ) (2022-04-07T10:45:32Z) - Continuous-Time vs. Discrete-Time Vision-based SLAM: A Comparative Study [46.89180519082908]
この研究は、視覚ベースのSLAMにおける2つの定式化の利点と限界を体系的に比較する。
我々は、SLAM問題を離散的かつ連続的に解くために、最先端のアルゴリズムを含むモジュール化された効率的なソフトウェアアーキテクチャを開発し、オープンソース化する。
論文 参考訳(メタデータ) (2022-02-17T20:42:06Z) - Multi-Camera Sensor Fusion for Visual Odometry using Deep Uncertainty
Estimation [34.8860186009308]
複数の車載カメラからの姿勢推定と不確実性推定の両方を用いて車両の動きを推定する深層センサ融合フレームワークを提案する。
我々は、利用可能な大規模自動運転車データセットnuScenesに対する我々のアプローチを評価した。
論文 参考訳(メタデータ) (2021-12-23T19:44:45Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z) - MIMC-VINS: A Versatile and Resilient Multi-IMU Multi-Camera
Visual-Inertial Navigation System [44.76768683036822]
視覚慣性ナビゲーションシステムのためのリアルタイム一貫したマルチIMUマルチカメラ(CMU)-VINS推定器を提案する。
効率的な多状態制約フィルタ内では、提案したMIMC-VINSアルゴリズムは、すべてのセンサからの非同期測定を最適に融合する。
提案したMIMC-VINSはモンテカルロシミュレーションと実世界実験の両方で検証されている。
論文 参考訳(メタデータ) (2020-06-28T20:16:08Z) - Learning Selective Sensor Fusion for States Estimation [47.76590539558037]
本稿では,エンド・ツー・エンドのセンサ・フュージョン・モジュールであるSelectFusionを提案する。
予測中、ネットワークは異なるセンサーモードから潜伏する特徴の信頼性を評価することができる。
我々は、公開データセットと漸進的に劣化したデータセットの両方において、すべての融合戦略を広範囲に評価する。
論文 参考訳(メタデータ) (2019-12-30T20:25:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。