論文の概要: RELMOBNET: A Robust Two-Stage End-To-End Training Approach For
MOBILENETV3 Based Relative Camera Pose Estimation
- arxiv url: http://arxiv.org/abs/2202.12838v1
- Date: Fri, 25 Feb 2022 17:27:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 16:25:38.954822
- Title: RELMOBNET: A Robust Two-Stage End-To-End Training Approach For
MOBILENETV3 Based Relative Camera Pose Estimation
- Title(参考訳): RELMOBNET: MOBILENETV3を用いた相対カメラポース推定のためのロバストな2段階のエンドツーエンドトレーニングアプローチ
- Authors: Praveen Kumar Rajendran, Sumit Mishra, Luiz Felipe Vecchietti, Dongsoo
Har
- Abstract要約: 相対カメラポーズ推定は3次元再構成と視覚的位置推定において重要な役割を担っている。
本稿では,MobileNetV3-LargeをベースとしたSiameseネットワークを提案する。
- 参考スコア(独自算出の注目度): 0.6193838300896449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relative camera pose estimation plays a pivotal role in dealing with 3D
reconstruction and visual localization. To address this, we propose a Siamese
network based on MobileNetV3-Large for an end-to-end relative camera pose
regression independent of camera parameters. The proposed network uses pair of
images taken at different locations in the same scene to estimate the 3D
translation vector and rotation vector in unit quaternion. To increase the
generality of the model, rather than training it for a single scene, data for
four scenes are combined to train a single universal model to estimate the
relative pose. Further for independency of hyperparameter weighing between
translation and rotation loss is not used. Instead we use the novel two-stage
training procedure to learn the balance implicitly with faster convergence. We
compare the results obtained with the Cambridge Landmarks dataset, comprising
of different scenes, with existing CNN-based regression methods as baselines,
e.g., RPNet and RCPNet. The findings indicate that, when compared to RCPNet,
proposed model improves the estimation of the translation vector by a
percentage change of 16.11%, 28.88%, 52.27% on the Kings College, Old Hospital,
St Marys Church scenes from Cambridge Landmarks dataset, respectively.
- Abstract(参考訳): 相対カメラポーズ推定は3次元再構成と視覚的位置推定において重要な役割を果たす。
そこで本稿では,カメラパラメータに依存しないエンド・ツー・エンドの相対カメラポーズ回帰のためのmobilenetv3-largeに基づくシャムネットワークを提案する。
提案ネットワークは,同じシーンの異なる場所で撮影された画像のペアを用いて,単位四元数における3次元翻訳ベクトルと回転ベクトルを推定する。
モデルの汎用性を高めるために、4つのシーンのデータを組み合わせて1つのユニバーサルモデルを訓練し、相対的なポーズを推定する。
さらに、トランスレーションと回転損失の重み付けによる超パラメータの独立性は使用しない。
その代わりに、新しい2段階のトレーニング手順を使って、より速い収束で暗黙的にバランスを学ぶ。
本研究では, 異なるシーンからなるcambridge landmarksデータセットと, rpnet や rcpnet など既存の cnn ベースの回帰手法との比較を行った。
以上の結果から,rcpnetと比較した場合,提案モデルは,キングス・カレッジ,オールド・ホスピタル,ケンブリッジ・ランドマーク・データセットのセント・メアリー教会シーンにおいて,それぞれ16.11%,28.88%,52.27%の比率変化により,翻訳ベクトルの推定を改善することが示唆された。
関連論文リスト
- SRPose: Two-view Relative Pose Estimation with Sparse Keypoints [51.49105161103385]
SRPoseは、カメラ・トゥ・ワールドおよびオブジェクト・トゥ・カメラシナリオにおける2ビュー相対ポーズ推定のためのスパースキーポイントベースのフレームワークである。
精度と速度の点で最先端の手法と比較して、競争力や優れた性能を達成する。
さまざまな画像サイズやカメラ固有の機能に対して堅牢であり、低コンピューティングリソースでデプロイすることができる。
論文 参考訳(メタデータ) (2024-07-11T05:46:35Z) - iComMa: Inverting 3D Gaussian Splatting for Camera Pose Estimation via Comparing and Matching [14.737266480464156]
コンピュータビジョンにおける6次元カメラのポーズ推定問題に対処するため,iComMaという手法を提案する。
3次元ガウススプラッティング(3DGS)の反転による高精度カメラポーズ推定法を提案する。
論文 参考訳(メタデータ) (2023-12-14T15:31:33Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - SACReg: Scene-Agnostic Coordinate Regression for Visual Localization [16.866303169903237]
本稿では,新しいテストシーンで1回トレーニングされた一般化SCRモデルを提案する。
我々のモデルは、シーン座標をネットワーク重みに符号化する代わりに、スパース2Dピクセルのデータベースイメージを3D座標アノテーションに入力する。
画像のデータベース表現とその2D-3Dアノテーションは,局所化性能を損なうことなく,高度に圧縮できることを示す。
論文 参考訳(メタデータ) (2023-07-21T16:56:36Z) - RelPose++: Recovering 6D Poses from Sparse-view Observations [66.6922660401558]
スパースビュー画像集合(2-8画像)から6次元カメラポーズを推定する作業に対処する。
我々は,画像対上の相対回転よりも分布を推定するネットワークを学習するRelPoseフレームワークを構築した。
最終システムは,先行技術よりも6次元ポーズ予測を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-08T17:59:58Z) - Leveraging Image Matching Toward End-to-End Relative Camera Pose Regression [13.233301155616616]
本稿では,2つの画像間の相対的なポーズ回帰のための一般化可能なエンドツーエンドの深層学習手法を提案する。
従来のパイプラインにインスパイアされた本手法では,画像マッチング(IM)を,相対的ポーズ回帰のための事前学習タスクとして活用する。
提案手法をいくつかのデータセット上で評価し,従来のエンドツーエンド手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-27T22:01:47Z) - Camera Calibration through Camera Projection Loss [4.36572039512405]
画像対を用いた固有(焦点長と主点オフセット)パラメータの予測手法を提案する。
従来の手法とは違って,マルチタスク学習フレームワークにおいて,カメラモデル方程式をニューラルネットワークとして組み込んだ新しい表現を提案する。
提案手法は,10パラメータ中7パラメータに対して,ディープラーニングと従来手法の両方に対して,優れた性能を実現する。
論文 参考訳(メタデータ) (2021-10-07T14:03:10Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - Wide-Baseline Relative Camera Pose Estimation with Directional Learning [46.21836501895394]
提案するDirectionNetは,新しいパラメータ化を用いて5次元相対ポーズ空間上の離散分布を推定し,推定問題を抽出できるようにする。
本研究では,Matterport3DとInstituteNetから構築した合成・実ポーズ推定データセットについて検討した。
論文 参考訳(メタデータ) (2021-06-07T04:46:09Z) - Robust 2D/3D Vehicle Parsing in CVIS [54.825777404511605]
本研究では,協調型車両インフラシステム(CVIS)の一環として,異なるカメラビューの車両を堅牢に検出・認識する新しいアプローチを提案する。
提案方式は任意のカメラビュー向けに設計されており,本質的パラメータや外部的パラメータを仮定しない。
実際に,本手法は2次元検出,インスタンスセグメンテーション,6-DoFのポーズ推定においてSOTA法より優れている。
論文 参考訳(メタデータ) (2021-03-11T03:35:05Z) - 6D Camera Relocalization in Ambiguous Scenes via Continuous Multimodal
Inference [67.70859730448473]
あいまいさと不確かさを捉えるマルチモーダルカメラ再ローカライズフレームワークを提案する。
我々は、複数のカメラのポーズ仮説を予測し、それぞれの予測の不確実性も予測する。
あいまいな環境下でのカメラローカライゼーション研究を促進するための新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-04-09T20:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。