論文の概要: RELMOBNET: A Robust Two-Stage End-To-End Training Approach For
MOBILENETV3 Based Relative Camera Pose Estimation
- arxiv url: http://arxiv.org/abs/2202.12838v1
- Date: Fri, 25 Feb 2022 17:27:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 16:25:38.954822
- Title: RELMOBNET: A Robust Two-Stage End-To-End Training Approach For
MOBILENETV3 Based Relative Camera Pose Estimation
- Title(参考訳): RELMOBNET: MOBILENETV3を用いた相対カメラポース推定のためのロバストな2段階のエンドツーエンドトレーニングアプローチ
- Authors: Praveen Kumar Rajendran, Sumit Mishra, Luiz Felipe Vecchietti, Dongsoo
Har
- Abstract要約: 相対カメラポーズ推定は3次元再構成と視覚的位置推定において重要な役割を担っている。
本稿では,MobileNetV3-LargeをベースとしたSiameseネットワークを提案する。
- 参考スコア(独自算出の注目度): 0.6193838300896449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relative camera pose estimation plays a pivotal role in dealing with 3D
reconstruction and visual localization. To address this, we propose a Siamese
network based on MobileNetV3-Large for an end-to-end relative camera pose
regression independent of camera parameters. The proposed network uses pair of
images taken at different locations in the same scene to estimate the 3D
translation vector and rotation vector in unit quaternion. To increase the
generality of the model, rather than training it for a single scene, data for
four scenes are combined to train a single universal model to estimate the
relative pose. Further for independency of hyperparameter weighing between
translation and rotation loss is not used. Instead we use the novel two-stage
training procedure to learn the balance implicitly with faster convergence. We
compare the results obtained with the Cambridge Landmarks dataset, comprising
of different scenes, with existing CNN-based regression methods as baselines,
e.g., RPNet and RCPNet. The findings indicate that, when compared to RCPNet,
proposed model improves the estimation of the translation vector by a
percentage change of 16.11%, 28.88%, 52.27% on the Kings College, Old Hospital,
St Marys Church scenes from Cambridge Landmarks dataset, respectively.
- Abstract(参考訳): 相対カメラポーズ推定は3次元再構成と視覚的位置推定において重要な役割を果たす。
そこで本稿では,カメラパラメータに依存しないエンド・ツー・エンドの相対カメラポーズ回帰のためのmobilenetv3-largeに基づくシャムネットワークを提案する。
提案ネットワークは,同じシーンの異なる場所で撮影された画像のペアを用いて,単位四元数における3次元翻訳ベクトルと回転ベクトルを推定する。
モデルの汎用性を高めるために、4つのシーンのデータを組み合わせて1つのユニバーサルモデルを訓練し、相対的なポーズを推定する。
さらに、トランスレーションと回転損失の重み付けによる超パラメータの独立性は使用しない。
その代わりに、新しい2段階のトレーニング手順を使って、より速い収束で暗黙的にバランスを学ぶ。
本研究では, 異なるシーンからなるcambridge landmarksデータセットと, rpnet や rcpnet など既存の cnn ベースの回帰手法との比較を行った。
以上の結果から,rcpnetと比較した場合,提案モデルは,キングス・カレッジ,オールド・ホスピタル,ケンブリッジ・ランドマーク・データセットのセント・メアリー教会シーンにおいて,それぞれ16.11%,28.88%,52.27%の比率変化により,翻訳ベクトルの推定を改善することが示唆された。
関連論文リスト
- FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - SACReg: Scene-Agnostic Coordinate Regression for Visual Localization [16.866303169903237]
本稿では,新しいテストシーンで1回トレーニングされた一般化SCRモデルを提案する。
我々のモデルは、シーン座標をネットワーク重みに符号化する代わりに、スパース2Dピクセルのデータベースイメージを3D座標アノテーションに入力する。
画像のデータベース表現とその2D-3Dアノテーションは,局所化性能を損なうことなく,高度に圧縮できることを示す。
論文 参考訳(メタデータ) (2023-07-21T16:56:36Z) - RelPose++: Recovering 6D Poses from Sparse-view Observations [66.6922660401558]
スパースビュー画像集合(2-8画像)から6次元カメラポーズを推定する作業に対処する。
我々は,画像対上の相対回転よりも分布を推定するネットワークを学習するRelPoseフレームワークを構築した。
最終システムは,先行技術よりも6次元ポーズ予測を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-08T17:59:58Z) - GRelPose: Generalizable End-to-End Relative Camera Pose Regression [17.062045616622868]
同じシーンの2つの画像が与えられた場合、このアルゴリズムは2つのカメラ間の相対回転と変換を予測する。
提案手法では,事前学習したLoFTRネットワークを用いて,各入力画像の粗い特徴のグリッドを抽出するネットワークアーキテクチャを提案する。
その後、2つの画像の対応する特徴を関連付け、最終的に畳み込みネットワークを用いて各カメラ間の相対回転と変換を復元する。
論文 参考訳(メタデータ) (2022-11-27T22:01:47Z) - Camera Calibration through Camera Projection Loss [4.36572039512405]
画像対を用いた固有(焦点長と主点オフセット)パラメータの予測手法を提案する。
従来の手法とは違って,マルチタスク学習フレームワークにおいて,カメラモデル方程式をニューラルネットワークとして組み込んだ新しい表現を提案する。
提案手法は,10パラメータ中7パラメータに対して,ディープラーニングと従来手法の両方に対して,優れた性能を実現する。
論文 参考訳(メタデータ) (2021-10-07T14:03:10Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - Wide-Baseline Relative Camera Pose Estimation with Directional Learning [46.21836501895394]
提案するDirectionNetは,新しいパラメータ化を用いて5次元相対ポーズ空間上の離散分布を推定し,推定問題を抽出できるようにする。
本研究では,Matterport3DとInstituteNetから構築した合成・実ポーズ推定データセットについて検討した。
論文 参考訳(メタデータ) (2021-06-07T04:46:09Z) - Visual Camera Re-Localization Using Graph Neural Networks and Relative
Pose Supervision [31.947525258453584]
視覚再局在化とは、単一の画像を入力として、予め記録された環境に対してカメラの位置と向きを推定する手段である。
提案手法は特別な仮定をほとんど行わず,訓練やテストでは極めて軽量である。
標準の屋内(7-Scenes)と屋外(Cambridge Landmarks)のカメラ再ローカリゼーションベンチマークに対するアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2021-04-06T14:29:03Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Robust 2D/3D Vehicle Parsing in CVIS [54.825777404511605]
本研究では,協調型車両インフラシステム(CVIS)の一環として,異なるカメラビューの車両を堅牢に検出・認識する新しいアプローチを提案する。
提案方式は任意のカメラビュー向けに設計されており,本質的パラメータや外部的パラメータを仮定しない。
実際に,本手法は2次元検出,インスタンスセグメンテーション,6-DoFのポーズ推定においてSOTA法より優れている。
論文 参考訳(メタデータ) (2021-03-11T03:35:05Z) - 6D Camera Relocalization in Ambiguous Scenes via Continuous Multimodal
Inference [67.70859730448473]
あいまいさと不確かさを捉えるマルチモーダルカメラ再ローカライズフレームワークを提案する。
我々は、複数のカメラのポーズ仮説を予測し、それぞれの予測の不確実性も予測する。
あいまいな環境下でのカメラローカライゼーション研究を促進するための新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-04-09T20:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。