論文の概要: Benchmarking Visual-Inertial Deep Multimodal Fusion for Relative Pose
Regression and Odometry-aided Absolute Pose Regression
- arxiv url: http://arxiv.org/abs/2208.00919v1
- Date: Mon, 1 Aug 2022 15:05:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 14:05:28.682117
- Title: Benchmarking Visual-Inertial Deep Multimodal Fusion for Relative Pose
Regression and Odometry-aided Absolute Pose Regression
- Title(参考訳): 相対的Pose回帰とOdometry-Aided Absolute Pose回帰に対するVisual-Inertial Deep Multimodal Fusionのベンチマーク
- Authors: Felix Ott and Nisha Lakshmana Raichur and David R\"ugamer and Tobias
Feigl and Heiko Neumann and Bernd Bischl and Christopher Mutschler
- Abstract要約: PGOとアテンションネットワークに基づく深層マルチモーダル融合の評価を行う。
航空機や携帯機器のAPRタスクとRPR-PRタスクの精度向上を示す。
- 参考スコア(独自算出の注目度): 6.557612703872671
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual-inertial localization is a key problem in computer vision and robotics
applications such as virtual reality, self-driving cars, and aerial vehicles.
The goal is to estimate an accurate pose of an object when either the
environment or the dynamics are known. Recent methods directly regress the pose
using convolutional and spatio-temporal networks. Absolute pose regression
(APR) techniques predict the absolute camera pose from an image input in a
known scene. Odometry methods perform relative pose regression (RPR) that
predicts the relative pose from a known object dynamic (visual or inertial
inputs). The localization task can be improved by retrieving information of
both data sources for a cross-modal setup, which is a challenging problem due
to contradictory tasks. In this work, we conduct a benchmark to evaluate deep
multimodal fusion based on PGO and attention networks. Auxiliary and Bayesian
learning are integrated for the APR task. We show accuracy improvements for the
RPR-aided APR task and for the RPR-RPR task for aerial vehicles and hand-held
devices. We conduct experiments on the EuRoC MAV and PennCOSYVIO datasets, and
record a novel industry dataset.
- Abstract(参考訳): 視覚慣性ローカライゼーションは、仮想現実、自動運転車、航空機などのコンピュータビジョンやロボティクスアプリケーションにおいて重要な問題である。
目標は、環境またはダイナミクスが分かっているときに、オブジェクトの正確なポーズを推定することである。
最近の手法は畳み込みと時空間ネットワークを用いて直接ポーズを回帰する。
絶対ポーズ回帰(APR)技術は、既知のシーンでの画像入力から絶対カメラポーズを予測する。
オドメトリー法は、既知のオブジェクトの動的(視覚または慣性入力)から相対的なポーズを予測する相対的ポーズ回帰(rpr)を実行する。
クロスモーダル設定のために両データソースの情報を取得することにより、ローカライゼーションタスクを改善することができる。
本研究では,pgoとアテンションネットワークに基づく深層マルチモーダル融合の評価を行うためのベンチマークを行った。
APRタスクには補助学習とベイズ学習が統合されている。
本稿では,RPR支援型APRタスクと,航空機や携帯機器のRPR支援型RPRタスクの精度向上を示す。
我々はEuRoC MAVとPennCOSYVIOデータセットの実験を行い、新しい業界データセットを記録する。
関連論文リスト
- Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - KS-APR: Keyframe Selection for Robust Absolute Pose Regression [2.541264438930729]
Markerless Mobile Augmented Reality (AR)は、特定の2Dや3Dオブジェクトを使わずに、物理的な世界でデジタルコンテンツを固定することを目的としている。
エンドツーエンドの機械学習ソリューションは、単一の単眼画像からデバイスのポーズを推測する。
APR法は、トレーニングセットから遠すぎる入力画像に対して重大な不正確性をもたらす傾向がある。
本稿では,推定ポーズの信頼性を最小限のオーバーヘッドで評価するパイプラインKS-APRを紹介する。
論文 参考訳(メタデータ) (2023-08-10T09:32:20Z) - Fusing Structure from Motion and Simulation-Augmented Pose Regression from Optical Flow for Challenging Indoor Environments [13.654208446015824]
オブジェクトのローカライゼーションは、ロボット工学、バーチャルおよび拡張現実、倉庫における商品の輸送など、さまざまなアプリケーションにおいて重要なタスクである。
近年のディープラーニングの進歩により、単眼視覚カメラを用いた局所化が可能になった。
本研究の目的は,これらの課題に対して,追加情報を導入し,相対的ポーズ回帰(RPR)法を用いて絶対的なポーズを規則化することである。
論文 参考訳(メタデータ) (2023-04-14T16:58:23Z) - Learning to Localize in Unseen Scenes with Relative Pose Regressors [5.672132510411465]
相対的なポーズ回帰器(RPR)は、相対的な翻訳と回転をポーズラベル付き参照に推定することで、カメラをローカライズする。
しかし実際には、RPRのパフォーマンスは目に見えない場面で著しく劣化している。
我々は、結合、投影、注意操作(Transformer)によるアグリゲーションを実装し、結果として生じる潜在コードから相対的なポーズパラメータを回帰することを学ぶ。
現状のRCPと比較すると、室内および屋外のベンチマークにおいて、表示シーンにおける競合性能を維持しながら、見えない環境において、より優れたローカライズが期待できる。
論文 参考訳(メタデータ) (2023-03-05T17:12:50Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - DeepRM: Deep Recurrent Matching for 6D Pose Refinement [77.34726150561087]
DeepRMは、6Dポーズ改善のための新しいリカレントネットワークアーキテクチャである。
アーキテクチャにはLSTMユニットが組み込まれ、各改善ステップを通じて情報を伝達する。
DeepRMは、2つの広く受け入れられている課題データセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-28T16:18:08Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z) - Denoising IMU Gyroscopes with Deep Learning for Open-Loop Attitude
Estimation [0.0]
本稿では,慣性計測ユニット(IMU)のジャイロスコープを地中真実データを用いて識別する学習手法を提案する。
得られたアルゴリズムは、(目に見えない)テストシーケンスで最先端の処理を行う。
論文 参考訳(メタデータ) (2020-02-25T08:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。