論文の概要: Learning to Localize in Unseen Scenes with Relative Pose Regressors
- arxiv url: http://arxiv.org/abs/2303.02717v1
- Date: Sun, 5 Mar 2023 17:12:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 18:05:36.306123
- Title: Learning to Localize in Unseen Scenes with Relative Pose Regressors
- Title(参考訳): 相対的ポエトレストレストによる見えないシーンのローカライズ学習
- Authors: Ofer Idan, Yoli Shavit, Yosi Keller
- Abstract要約: 相対的なポーズ回帰器(RPR)は、相対的な翻訳と回転をポーズラベル付き参照に推定することで、カメラをローカライズする。
しかし実際には、RPRのパフォーマンスは目に見えない場面で著しく劣化している。
我々は、結合、投影、注意操作(Transformer)によるアグリゲーションを実装し、結果として生じる潜在コードから相対的なポーズパラメータを回帰することを学ぶ。
現状のRCPと比較すると、室内および屋外のベンチマークにおいて、表示シーンにおける競合性能を維持しながら、見えない環境において、より優れたローカライズが期待できる。
- 参考スコア(独自算出の注目度): 5.672132510411465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relative pose regressors (RPRs) localize a camera by estimating its relative
translation and rotation to a pose-labelled reference. Unlike scene coordinate
regression and absolute pose regression methods, which learn absolute scene
parameters, RPRs can (theoretically) localize in unseen environments, since
they only learn the residual pose between camera pairs. In practice, however,
the performance of RPRs is significantly degraded in unseen scenes. In this
work, we propose to aggregate paired feature maps into latent codes, instead of
operating on global image descriptors, in order to improve the generalization
of RPRs. We implement aggregation with concatenation, projection, and attention
operations (Transformer Encoders) and learn to regress the relative pose
parameters from the resulting latent codes. We further make use of a recently
proposed continuous representation of rotation matrices, which alleviates the
limitations of the commonly used quaternions. Compared to state-of-the-art
RPRs, our model is shown to localize significantly better in unseen
environments, across both indoor and outdoor benchmarks, while maintaining
competitive performance in seen scenes. We validate our findings and
architecture design through multiple ablations. Our code and pretrained models
is publicly available.
- Abstract(参考訳): 相対ポーズレグレッシャ(rprs)は、相対翻訳と回転をポーズラベル付き参照に推定してカメラをローカライズする。
絶対的なシーンパラメータを学習するシーン座標回帰法や絶対的なポーズ回帰法とは異なり、RPRは(理論的には)見えない環境でローカライズすることができる。
しかし実際には、RPRのパフォーマンスは目に見えない場面で著しく劣化している。
本研究では, rprの一般化を改善するために, グローバル画像記述子ではなく, 機能マップを潜在コードに集約することを提案する。
我々は、結合、投影、注意操作(Transformer Encoders)による集約を実装し、結果の潜時符号から相対的なポーズパラメータを回帰することを学ぶ。
さらに,最近提案されている回転行列の連続表現を用いることにより,一般的に用いられる四元数の制限を緩和する。
現状のRCPと比較すると、室内および屋外のベンチマークにおいて、表示シーンにおける競合性能を維持しながら、見えない環境において、より優れたローカライズが期待できる。
複数の改善を通じて,その発見とアーキテクチャ設計を検証する。
私たちのコードと事前トレーニングされたモデルは公開されています。
関連論文リスト
- SRPose: Two-view Relative Pose Estimation with Sparse Keypoints [51.49105161103385]
SRPoseは、カメラ・トゥ・ワールドおよびオブジェクト・トゥ・カメラシナリオにおける2ビュー相対ポーズ推定のためのスパースキーポイントベースのフレームワークである。
精度と速度の点で最先端の手法と比較して、競争力や優れた性能を達成する。
さまざまな画像サイズやカメラ固有の機能に対して堅牢であり、低コンピューティングリソースでデプロイすることができる。
論文 参考訳(メタデータ) (2024-07-11T05:46:35Z) - Cameras as Rays: Pose Estimation via Ray Diffusion [54.098613859015856]
カメラのポーズを推定することは3D再構成の基本的な課題であり、まばらにサンプリングされたビューを考えると依然として困難である。
本稿では,カメラを光束として扱うカメラポーズの分散表現を提案する。
提案手法は回帰法と拡散法の両方で,CO3Dのカメラポーズ推定における最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-22T18:59:56Z) - CoPR: Towards Accurate Visual Localization With Continuous
Place-descriptor Regression [2.7393821783237184]
ビジュアルプレース認識(VPR)は、ジオタグ付き参照画像のマップから最も類似した参照画像を取得することにより、クエリ画像のカメラ位置を推定する。
VPRの参照は、地図内のスパースポーズでのみ利用可能であり、最大到達可能なローカライゼーション精度の上限を強制する。
本研究では,地図の高密度化とローカライズ精度の向上を図るために,CoPR(Continuous Place-Descriptor Regression)を提案する。
論文 参考訳(メタデータ) (2023-04-14T23:17:44Z) - Fusing Structure from Motion and Simulation-Augmented Pose Regression from Optical Flow for Challenging Indoor Environments [13.654208446015824]
オブジェクトのローカライゼーションは、ロボット工学、バーチャルおよび拡張現実、倉庫における商品の輸送など、さまざまなアプリケーションにおいて重要なタスクである。
近年のディープラーニングの進歩により、単眼視覚カメラを用いた局所化が可能になった。
本研究の目的は,これらの課題に対して,追加情報を導入し,相対的ポーズ回帰(RPR)法を用いて絶対的なポーズを規則化することである。
論文 参考訳(メタデータ) (2023-04-14T16:58:23Z) - RelPose: Predicting Probabilistic Relative Rotation for Single Objects
in the Wild [73.1276968007689]
本稿では、任意のオブジェクトの複数の画像からカメラ視点を推定するデータ駆動手法について述べる。
本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-11T17:59:59Z) - Camera Pose Auto-Encoders for Improving Pose Regression [6.700873164609009]
カメラポーズオートエンコーダ(PAE)を導入し,APRを教師として用いたカメラポーズをエンコードする。
得られた潜在ポーズ表現は、APRのパフォーマンスを密に再現し、関連するタスクに対してそれらの効果を示すことができることを示す。
また、学習したポーズエンコーディングから列車画像の再構成が可能であることを示し、低メモリで設定した列車の視覚情報を統合する方法について検討した。
論文 参考訳(メタデータ) (2022-07-12T13:47:36Z) - ImPosIng: Implicit Pose Encoding for Efficient Camera Pose Estimation [2.6808541153140077]
暗黙の詩。
(ImPosing)はイメージとカメラのポーズを2つの別々のニューラルネットワークで共通の潜在表現に埋め込む。
階層的な方法で潜在空間を通して候補を評価することにより、カメラの位置と向きを直接回帰するのではなく、洗練する。
論文 参考訳(メタデータ) (2022-05-05T13:33:25Z) - On the Limits of Pseudo Ground Truth in Visual Camera Re-localisation [83.29404673257328]
再ローカライゼーションベンチマークは、各メソッドが参照アルゴリズムの結果をいかにうまく再現するかを測定する。
このことは、参照アルゴリズムの選択がある種の再ローカライゼーション手法を好むかどうかを問うものである。
本稿では、広く使われている2つの再ローカライゼーションデータセットを分析し、参照アルゴリズムの選択によって評価結果が実際に異なることを示す。
論文 参考訳(メタデータ) (2021-09-01T12:01:08Z) - Visual Camera Re-Localization Using Graph Neural Networks and Relative
Pose Supervision [31.947525258453584]
視覚再局在化とは、単一の画像を入力として、予め記録された環境に対してカメラの位置と向きを推定する手段である。
提案手法は特別な仮定をほとんど行わず,訓練やテストでは極めて軽量である。
標準の屋内(7-Scenes)と屋外(Cambridge Landmarks)のカメラ再ローカリゼーションベンチマークに対するアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2021-04-06T14:29:03Z) - Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression [81.05772887221333]
従来のキーポイント検出およびグループ化フレームワークに劣る密度の高いキーポイント回帰フレームワークについて検討する。
我々は,dekr(disentangled keypoint regression)という,単純かつ効果的な手法を提案する。
提案手法はキーポイント検出法やグループ化法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-06T05:54:46Z) - Cross-Scale Internal Graph Neural Network for Image Super-Resolution [147.77050877373674]
自然画像における非局所的な自己相似性は、画像修復に有効な先行研究として、よく研究されている。
単一の画像超解像(SISR)の場合、既存のディープ非局所法のほとんどは、低解像度(LR)入力画像と同じ規模のパッチしか利用していない。
これは、新しいクロススケールな内部グラフニューラルネットワーク(IGNN)を用いて実現される。
論文 参考訳(メタデータ) (2020-06-30T10:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。