論文の概要: Camera Pose Auto-Encoders for Improving Pose Regression
- arxiv url: http://arxiv.org/abs/2207.05530v1
- Date: Tue, 12 Jul 2022 13:47:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 18:45:08.220586
- Title: Camera Pose Auto-Encoders for Improving Pose Regression
- Title(参考訳): ポーズ回帰を改善するカメラポーズ自動エンコーダ
- Authors: Yoli Shavit and Yosi Keller
- Abstract要約: カメラポーズオートエンコーダ(PAE)を導入し,APRを教師として用いたカメラポーズをエンコードする。
得られた潜在ポーズ表現は、APRのパフォーマンスを密に再現し、関連するタスクに対してそれらの効果を示すことができることを示す。
また、学習したポーズエンコーディングから列車画像の再構成が可能であることを示し、低メモリで設定した列車の視覚情報を統合する方法について検討した。
- 参考スコア(独自算出の注目度): 6.700873164609009
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Absolute pose regressor (APR) networks are trained to estimate the pose of
the camera given a captured image. They compute latent image representations
from which the camera position and orientation are regressed. APRs provide a
different tradeoff between localization accuracy, runtime, and memory, compared
to structure-based localization schemes that provide state-of-the-art accuracy.
In this work, we introduce Camera Pose Auto-Encoders (PAEs), multilayer
perceptrons that are trained via a Teacher-Student approach to encode camera
poses using APRs as their teachers. We show that the resulting latent pose
representations can closely reproduce APR performance and demonstrate their
effectiveness for related tasks. Specifically, we propose a light-weight
test-time optimization in which the closest train poses are encoded and used to
refine camera position estimation. This procedure achieves a new
state-of-the-art position accuracy for APRs, on both the CambridgeLandmarks and
7Scenes benchmarks. We also show that train images can be reconstructed from
the learned pose encoding, paving the way for integrating visual information
from the train set at a low memory cost. Our code and pre-trained models are
available at https://github.com/yolish/camera-pose-auto-encoders.
- Abstract(参考訳): absolute pose regressor (apr)ネットワークは、撮影された画像からカメラのポーズを推定するために訓練される。
カメラの位置と向きがレグレッションされる潜像表現を計算する。
APRは、最先端の精度を提供する構造ベースのローカライゼーションスキームと比較して、ローカライズ精度、ランタイム、メモリ間の異なるトレードオフを提供する。
本研究では,APRを教師として用いたカメラポーズをエンコードするための教師-学生アプローチを用いて,マルチ層パーセプトロンであるカメラポーズオートエンコーダ(PAE)を導入する。
得られた潜在ポーズ表現は、APRのパフォーマンスを忠実に再現し、関連するタスクの有効性を示す。
具体的には、最寄りの列車ポーズを符号化し、カメラ位置推定を洗練する軽量なテストタイム最適化を提案する。
この手順は、CambridgeLandmarksと7Scenesベンチマークの両方で、APRの新たな最先端位置精度を実現する。
また,学習したポーズエンコーディングから列車画像の再構成が可能であり,メモリコストが低く,列車セットからの視覚情報を統合する手段が整っていることを示す。
私たちのコードと事前トレーニングされたモデルは、https://github.com/yolish/camera-pose-auto-encodersで利用可能です。
関連論文リスト
- SRPose: Two-view Relative Pose Estimation with Sparse Keypoints [51.49105161103385]
SRPoseは、カメラ・トゥ・ワールドおよびオブジェクト・トゥ・カメラシナリオにおける2ビュー相対ポーズ推定のためのスパースキーポイントベースのフレームワークである。
精度と速度の点で最先端の手法と比較して、競争力や優れた性能を達成する。
さまざまな画像サイズやカメラ固有の機能に対して堅牢であり、低コンピューティングリソースでデプロイすることができる。
論文 参考訳(メタデータ) (2024-07-11T05:46:35Z) - Cameras as Rays: Pose Estimation via Ray Diffusion [54.098613859015856]
カメラのポーズを推定することは3D再構成の基本的な課題であり、まばらにサンプリングされたビューを考えると依然として困難である。
本稿では,カメラを光束として扱うカメラポーズの分散表現を提案する。
提案手法は回帰法と拡散法の両方で,CO3Dのカメラポーズ推定における最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-22T18:59:56Z) - Learning to Localize in Unseen Scenes with Relative Pose Regressors [5.672132510411465]
相対的なポーズ回帰器(RPR)は、相対的な翻訳と回転をポーズラベル付き参照に推定することで、カメラをローカライズする。
しかし実際には、RPRのパフォーマンスは目に見えない場面で著しく劣化している。
我々は、結合、投影、注意操作(Transformer)によるアグリゲーションを実装し、結果として生じる潜在コードから相対的なポーズパラメータを回帰することを学ぶ。
現状のRCPと比較すると、室内および屋外のベンチマークにおいて、表示シーンにおける競合性能を維持しながら、見えない環境において、より優れたローカライズが期待できる。
論文 参考訳(メタデータ) (2023-03-05T17:12:50Z) - ImPosIng: Implicit Pose Encoding for Efficient Camera Pose Estimation [2.6808541153140077]
暗黙の詩。
(ImPosing)はイメージとカメラのポーズを2つの別々のニューラルネットワークで共通の潜在表現に埋め込む。
階層的な方法で潜在空間を通して候補を評価することにより、カメラの位置と向きを直接回帰するのではなく、洗練する。
論文 参考訳(メタデータ) (2022-05-05T13:33:25Z) - Rethinking and Improving Relative Position Encoding for Vision
Transformer [61.559777439200744]
リレーショナル位置符号化(RPE)は、トランスフォーマーが入力トークンのシーケンス順序をキャプチャする上で重要である。
画像RPE(iRPE)と呼ばれる2次元画像専用の新しい相対的位置符号化法を提案する。
論文 参考訳(メタデータ) (2021-07-29T17:55:10Z) - Visual Camera Re-Localization Using Graph Neural Networks and Relative
Pose Supervision [31.947525258453584]
視覚再局在化とは、単一の画像を入力として、予め記録された環境に対してカメラの位置と向きを推定する手段である。
提案手法は特別な仮定をほとんど行わず,訓練やテストでは極めて軽量である。
標準の屋内(7-Scenes)と屋外(Cambridge Landmarks)のカメラ再ローカリゼーションベンチマークに対するアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2021-04-06T14:29:03Z) - Learning Neural Representation of Camera Pose with Matrix Representation
of Pose Shift via View Synthesis [105.37072293076767]
カメラポーズを効果的に表現する方法は、3Dコンピュータビジョンの重要な問題です。
カメラポーズと3Dシーンのニューラル表現を学習するためのアプローチを提案する。
合成および実データに対する広範な実験を行う。
論文 参考訳(メタデータ) (2021-04-04T00:40:53Z) - Paying Attention to Activation Maps in Camera Pose Regression [4.232614032390374]
カメラポーズ回帰手法は、クエリ画像に単一のフォワードパスを適用してカメラポーズを推定する。
畳み込みアクティベーションマップをシーケンシャル入力として使用するポーズ回帰のための注意に基づくアプローチを提案する。
提案手法は,現代のポーズレグレッサー方式に好適に比較し,複数のベンチマークにまたがる最先端の精度を実現する。
論文 参考訳(メタデータ) (2021-03-21T20:10:15Z) - Do We Really Need Scene-specific Pose Encoders? [0.0]
視覚ポーズ回帰モデルは、1つの前方パスでクエリイメージからカメラポーズを推定します。
現在のモデルは、シーン毎にトレーニングされた深層畳み込みネットワークを使用して、画像からポーズエンコーディングを学ぶ。
ポーズ回帰にはシーン固有のポーズエンコーダは不要であり、視覚的類似性のために訓練されたエンコーディングを代わりに使用できる。
論文 参考訳(メタデータ) (2020-12-22T13:59:52Z) - Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by
Implicitly Unprojecting to 3D [100.93808824091258]
本稿では,任意の数のカメラから映像データを与えられたシーンの鳥眼ビュー表現を直接抽出するエンド・ツー・エンドアーキテクチャを提案する。
我々のアプローチは、それぞれの画像をそれぞれのカメラのフラストラムに個別に“リフト”し、すべてのフラストラムを鳥の目視格子に“プレート”することです。
提案モデルにより推定される表現は,テンプレートトラジェクトリを鳥眼ビューのコストマップに"撮影"することで,終末動作計画の解釈を可能にすることを示す。
論文 参考訳(メタデータ) (2020-08-13T06:29:01Z) - Rethinking the Distribution Gap of Person Re-identification with
Camera-based Batch Normalization [90.9485099181197]
本稿では,従来のReID手法の動作機構を再考する。
我々は、すべてのカメラの画像データを同じ部分空間に落とすように強制する。
幅広いReIDタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-01-23T17:22:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。