論文の概要: Paying Attention to Activation Maps in Camera Pose Regression
- arxiv url: http://arxiv.org/abs/2103.11477v1
- Date: Sun, 21 Mar 2021 20:10:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 08:57:57.340008
- Title: Paying Attention to Activation Maps in Camera Pose Regression
- Title(参考訳): カメラポーズ回帰におけるアクティベーションマップへの注意
- Authors: Yoli Shavit, Ron Ferens, Yosi Keller
- Abstract要約: カメラポーズ回帰手法は、クエリ画像に単一のフォワードパスを適用してカメラポーズを推定する。
畳み込みアクティベーションマップをシーケンシャル入力として使用するポーズ回帰のための注意に基づくアプローチを提案する。
提案手法は,現代のポーズレグレッサー方式に好適に比較し,複数のベンチマークにまたがる最先端の精度を実現する。
- 参考スコア(独自算出の注目度): 4.232614032390374
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Camera pose regression methods apply a single forward pass to the query image
to estimate the camera pose. As such, they offer a fast and light-weight
alternative to traditional localization schemes based on image retrieval. Pose
regression approaches simultaneously learn two regression tasks, aiming to
jointly estimate the camera position and orientation using a single embedding
vector computed by a convolutional backbone. We propose an attention-based
approach for pose regression, where the convolutional activation maps are used
as sequential inputs. Transformers are applied to encode the sequential
activation maps as latent vectors, used for camera pose regression. This allows
us to pay attention to spatially-varying deep features. Using two Transformer
heads, we separately focus on the features for camera position and orientation,
based on how informative they are per task. Our proposed approach is shown to
compare favorably to contemporary pose regressors schemes and achieves
state-of-the-art accuracy across multiple outdoor and indoor benchmarks. In
particular, to the best of our knowledge, our approach is the only method to
attain sub-meter average accuracy across outdoor scenes. We make our code
publicly available from here.
- Abstract(参考訳): カメラポーズ回帰手法は、クエリ画像に単一のフォワードパスを適用してカメラポーズを推定する。
そのため、画像検索に基づく従来のローカライズ方式に代わる、高速で軽量な代替手段を提供する。
2つの回帰タスクを同時に学習し、畳み込みバックボーンによって計算される1つの埋め込みベクトルを用いて、カメラの位置と向きを共同で推定する。
本稿では,アクティベーションマップを逐次入力として用いる,ポーズ回帰に対する注意に基づくアプローチを提案する。
逐次アクティベーションマップを潜在ベクトルとしてエンコードするためにトランスフォーマーが適用され、カメラポーズの回帰に使用される。
これにより、空間的に変化する深い特徴に注意を払うことができます。
2つのトランスフォーマヘッドを使用して,タスク毎のインフォメーションに基づいて,カメラの位置と向きの機能を別々に注目する。
提案手法は,現代のポーズレグレッシブ・スキームと比較し,屋外と屋内の複数のベンチマークにおいて最先端の精度を実現する。
特に、私たちの知る限りでは、屋外のシーンにおいて、メートル未満の平均精度を達成する唯一の方法です。
ここからコードを公開しています。
関連論文リスト
- SRPose: Two-view Relative Pose Estimation with Sparse Keypoints [51.49105161103385]
SRPoseは、カメラ・トゥ・ワールドおよびオブジェクト・トゥ・カメラシナリオにおける2ビュー相対ポーズ推定のためのスパースキーポイントベースのフレームワークである。
精度と速度の点で最先端の手法と比較して、競争力や優れた性能を達成する。
さまざまな画像サイズやカメラ固有の機能に対して堅牢であり、低コンピューティングリソースでデプロイすることができる。
論文 参考訳(メタデータ) (2024-07-11T05:46:35Z) - Cameras as Rays: Pose Estimation via Ray Diffusion [54.098613859015856]
カメラのポーズを推定することは3D再構成の基本的な課題であり、まばらにサンプリングされたビューを考えると依然として困難である。
本稿では,カメラを光束として扱うカメラポーズの分散表現を提案する。
提案手法は回帰法と拡散法の両方で,CO3Dのカメラポーズ推定における最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-22T18:59:56Z) - Coarse-to-Fine Multi-Scene Pose Regression with Transformers [19.927662512903915]
多層パーセプトロン(MLP)ヘッドを持つ畳み込みバックボーンは、画像とラベルを使用してトレーニングされ、一度に単一の参照を埋め込む。
本稿では,トランスフォーマーを用いて,アクティベーションマップを自己注意で集約するためにエンコーダを使用するマルチシーン絶対カメラポーズ回帰を学習することを提案する。
提案手法は,屋内および屋外のベンチマークデータセットで評価され,マルチシーンおよび最先端の単一シーンの絶対ポーズ回帰器を超越していることが示されている。
論文 参考訳(メタデータ) (2023-08-22T20:43:31Z) - Leveraging Image Matching Toward End-to-End Relative Camera Pose Regression [13.233301155616616]
本稿では,2つの画像間の相対的なポーズ回帰のための一般化可能なエンドツーエンドの深層学習手法を提案する。
従来のパイプラインにインスパイアされた本手法では,画像マッチング(IM)を,相対的ポーズ回帰のための事前学習タスクとして活用する。
提案手法をいくつかのデータセット上で評価し,従来のエンドツーエンド手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-27T22:01:47Z) - Camera Pose Auto-Encoders for Improving Pose Regression [6.700873164609009]
カメラポーズオートエンコーダ(PAE)を導入し,APRを教師として用いたカメラポーズをエンコードする。
得られた潜在ポーズ表現は、APRのパフォーマンスを密に再現し、関連するタスクに対してそれらの効果を示すことができることを示す。
また、学習したポーズエンコーディングから列車画像の再構成が可能であることを示し、低メモリで設定した列車の視覚情報を統合する方法について検討した。
論文 参考訳(メタデータ) (2022-07-12T13:47:36Z) - ImPosIng: Implicit Pose Encoding for Efficient Camera Pose Estimation [2.6808541153140077]
暗黙の詩。
(ImPosing)はイメージとカメラのポーズを2つの別々のニューラルネットワークで共通の潜在表現に埋め込む。
階層的な方法で潜在空間を通して候補を評価することにより、カメラの位置と向きを直接回帰するのではなく、洗練する。
論文 参考訳(メタデータ) (2022-05-05T13:33:25Z) - Poseur: Direct Human Pose Regression with Transformers [119.79232258661995]
単一画像からの2次元人間のポーズ推定に対する直接回帰に基づくアプローチを提案する。
私たちのフレームワークはエンドツーエンドの差別化が可能で、キーポイント間の依存関係を自然に活用することを学びます。
我々のアプローチは、最も優れたヒートマップベースのポーズ推定手法と比較して好意的に機能する最初の回帰ベースのアプローチである。
論文 参考訳(メタデータ) (2022-01-19T04:31:57Z) - DeepI2P: Image-to-Point Cloud Registration via Deep Classification [71.3121124994105]
DeepI2Pは、イメージとポイントクラウドの間のクロスモダリティ登録のための新しいアプローチです。
本手法は,カメラとライダーの座標フレーム間の相対的剛性変換を推定する。
登録問題を分類および逆カメラ投影最適化問題に変換することで難易度を回避する。
論文 参考訳(メタデータ) (2021-04-08T04:27:32Z) - Visual Camera Re-Localization Using Graph Neural Networks and Relative
Pose Supervision [31.947525258453584]
視覚再局在化とは、単一の画像を入力として、予め記録された環境に対してカメラの位置と向きを推定する手段である。
提案手法は特別な仮定をほとんど行わず,訓練やテストでは極めて軽量である。
標準の屋内(7-Scenes)と屋外(Cambridge Landmarks)のカメラ再ローカリゼーションベンチマークに対するアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2021-04-06T14:29:03Z) - Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression [81.05772887221333]
従来のキーポイント検出およびグループ化フレームワークに劣る密度の高いキーポイント回帰フレームワークについて検討する。
我々は,dekr(disentangled keypoint regression)という,単純かつ効果的な手法を提案する。
提案手法はキーポイント検出法やグループ化法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-06T05:54:46Z) - Bottom-Up Human Pose Estimation by Ranking Heatmap-Guided Adaptive
Keypoint Estimates [76.51095823248104]
キーポイント検出とグループ化(キーポイント回帰)性能を改善するために,これまでにほとんど,あるいはまったく研究されていないいくつかのスキームを提案する。
まず,画素単位のキーポイントレグレッションに対して,キーポイントのリグレッションを改善するために分離する代わりに,キーポイントのヒートマップを利用する。
第2に、スケールと向きの分散を扱うための適応表現を学習するために、画素単位の空間変換器ネットワークを採用する。
第3に,真のポーズとなる確率の高い推定ポーズを促進するために,結合形状と熱値評価手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T01:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。