Fugu-MT 論文翻訳(概要): RELMOBNET: A Robust Two-Stage End-To-End Training Approach For MOBILENETV3 Based Relative Camera Pose Estimation

論文の概要: RELMOBNET: A Robust Two-Stage End-To-End Training Approach For MOBILENETV3 Based Relative Camera Pose Estimation

arxiv url: http://arxiv.org/abs/2202.12838v1
Date: Fri, 25 Feb 2022 17:27:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-28 16:25:38.954822
Title: RELMOBNET: A Robust Two-Stage End-To-End Training Approach For MOBILENETV3 Based Relative Camera Pose Estimation
Title（参考訳）: RELMOBNET: MOBILENETV3を用いた相対カメラポース推定のためのロバストな2段階のエンドツーエンドトレーニングアプローチ
Authors: Praveen Kumar Rajendran, Sumit Mishra, Luiz Felipe Vecchietti, Dongsoo Har
Abstract要約: 相対カメラポーズ推定は3次元再構成と視覚的位置推定において重要な役割を担っている。本稿では,MobileNetV3-LargeをベースとしたSiameseネットワークを提案する。
参考スコア（独自算出の注目度）: 0.6193838300896449
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Relative camera pose estimation plays a pivotal role in dealing with 3D reconstruction and visual localization. To address this, we propose a Siamese network based on MobileNetV3-Large for an end-to-end relative camera pose regression independent of camera parameters. The proposed network uses pair of images taken at different locations in the same scene to estimate the 3D translation vector and rotation vector in unit quaternion. To increase the generality of the model, rather than training it for a single scene, data for four scenes are combined to train a single universal model to estimate the relative pose. Further for independency of hyperparameter weighing between translation and rotation loss is not used. Instead we use the novel two-stage training procedure to learn the balance implicitly with faster convergence. We compare the results obtained with the Cambridge Landmarks dataset, comprising of different scenes, with existing CNN-based regression methods as baselines, e.g., RPNet and RCPNet. The findings indicate that, when compared to RCPNet, proposed model improves the estimation of the translation vector by a percentage change of 16.11%, 28.88%, 52.27% on the Kings College, Old Hospital, St Marys Church scenes from Cambridge Landmarks dataset, respectively.
Abstract（参考訳）: 相対カメラポーズ推定は3次元再構成と視覚的位置推定において重要な役割を果たす。そこで本稿では,カメラパラメータに依存しないエンド・ツー・エンドの相対カメラポーズ回帰のためのmobilenetv3-largeに基づくシャムネットワークを提案する。提案ネットワークは,同じシーンの異なる場所で撮影された画像のペアを用いて,単位四元数における3次元翻訳ベクトルと回転ベクトルを推定する。モデルの汎用性を高めるために、4つのシーンのデータを組み合わせて1つのユニバーサルモデルを訓練し、相対的なポーズを推定する。さらに、トランスレーションと回転損失の重み付けによる超パラメータの独立性は使用しない。その代わりに、新しい2段階のトレーニング手順を使って、より速い収束で暗黙的にバランスを学ぶ。本研究では, 異なるシーンからなるcambridge landmarksデータセットと, rpnet や rcpnet など既存の cnn ベースの回帰手法との比較を行った。以上の結果から,rcpnetと比較した場合,提案モデルは,キングス・カレッジ,オールド・ホスピタル,ケンブリッジ・ランドマーク・データセットのセント・メアリー教会シーンにおいて,それぞれ16.11%,28.88%,52.27%の比率変化により,翻訳ベクトルの推定を改善することが示唆された。

関連論文リスト

No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文参考訳（メタデータ） (2024-10-31T17:58:22Z)
DVMNet++: Rethinking Relative Pose Estimation for Unseen Objects [59.51874686414509]
既存のアプローチでは、通常、接地構造オブジェクト境界ボックスと、多数の離散仮説を持つ近似3次元回転を用いて3次元翻訳を予測している。本稿では,1回のパスで相対オブジェクトのポーズを計算するDeep Voxel Matching Network (DVMNet++)を提案する。提案手法は,最先端手法と比較して計算コストの低い新しいオブジェクトに対して,より正確な相対的ポーズ推定を行う。
論文参考訳（メタデータ） (2024-03-20T15:41:32Z)
iComMa: Inverting 3D Gaussian Splatting for Camera Pose Estimation via Comparing and Matching [14.737266480464156]
コンピュータビジョンにおける6次元カメラのポーズ推定問題に対処するため,iComMaという手法を提案する。 3次元ガウススプラッティング(3DGS)の反転による高精度カメラポーズ推定法を提案する。
論文参考訳（メタデータ） (2023-12-14T15:31:33Z)
FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文参考訳（メタデータ） (2023-08-10T17:55:02Z)
SACReg: Scene-Agnostic Coordinate Regression for Visual Localization [16.866303169903237]
本稿では,新しいテストシーンで1回トレーニングされた一般化SCRモデルを提案する。我々のモデルは、シーン座標をネットワーク重みに符号化する代わりに、スパース2Dピクセルのデータベースイメージを3D座標アノテーションに入力する。画像のデータベース表現とその2D-3Dアノテーションは,局所化性能を損なうことなく,高度に圧縮できることを示す。
論文参考訳（メタデータ） (2023-07-21T16:56:36Z)
RelPose++: Recovering 6D Poses from Sparse-view Observations [66.6922660401558]
スパースビュー画像集合(2-8画像)から6次元カメラポーズを推定する作業に対処する。我々は,画像対上の相対回転よりも分布を推定するネットワークを学習するRelPoseフレームワークを構築した。最終システムは,先行技術よりも6次元ポーズ予測を大幅に改善する。
論文参考訳（メタデータ） (2023-05-08T17:59:58Z)
Leveraging Image Matching Toward End-to-End Relative Camera Pose Regression [13.233301155616616]
本稿では,2つの画像間の相対的なポーズ回帰のための一般化可能なエンドツーエンドの深層学習手法を提案する。従来のパイプラインにインスパイアされた本手法では,画像マッチング(IM)を,相対的ポーズ回帰のための事前学習タスクとして活用する。提案手法をいくつかのデータセット上で評価し,従来のエンドツーエンド手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-11-27T22:01:47Z)
Camera Calibration through Camera Projection Loss [4.36572039512405]
画像対を用いた固有(焦点長と主点オフセット)パラメータの予測手法を提案する。従来の手法とは違って,マルチタスク学習フレームワークにおいて,カメラモデル方程式をニューラルネットワークとして組み込んだ新しい表現を提案する。提案手法は,10パラメータ中7パラメータに対して,ディープラーニングと従来手法の両方に対して,優れた性能を実現する。
論文参考訳（メタデータ） (2021-10-07T14:03:10Z)
Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文参考訳（メタデータ） (2021-07-08T15:19:36Z)
Wide-Baseline Relative Camera Pose Estimation with Directional Learning [46.21836501895394]
提案するDirectionNetは,新しいパラメータ化を用いて5次元相対ポーズ空間上の離散分布を推定し,推定問題を抽出できるようにする。本研究では,Matterport3DとInstituteNetから構築した合成・実ポーズ推定データセットについて検討した。
論文参考訳（メタデータ） (2021-06-07T04:46:09Z)
Robust 2D/3D Vehicle Parsing in CVIS [54.825777404511605]
本研究では,協調型車両インフラシステム(CVIS)の一環として,異なるカメラビューの車両を堅牢に検出・認識する新しいアプローチを提案する。提案方式は任意のカメラビュー向けに設計されており,本質的パラメータや外部的パラメータを仮定しない。実際に,本手法は2次元検出,インスタンスセグメンテーション,6-DoFのポーズ推定においてSOTA法より優れている。
論文参考訳（メタデータ） (2021-03-11T03:35:05Z)
6D Camera Relocalization in Ambiguous Scenes via Continuous Multimodal Inference [67.70859730448473]
あいまいさと不確かさを捉えるマルチモーダルカメラ再ローカライズフレームワークを提案する。我々は、複数のカメラのポーズ仮説を予測し、それぞれの予測の不確実性も予測する。あいまいな環境下でのカメラローカライゼーション研究を促進するための新しいデータセットを提案する。
論文参考訳（メタデータ） (2020-04-09T20:55:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。