論文の概要: Do We Really Need Scene-specific Pose Encoders?
- arxiv url: http://arxiv.org/abs/2012.12014v1
- Date: Tue, 22 Dec 2020 13:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 07:46:34.669888
- Title: Do We Really Need Scene-specific Pose Encoders?
- Title(参考訳): シーン固有のポーズエンコーダは本当に必要か?
- Authors: Yoli Shavit and Ron Ferens
- Abstract要約: 視覚ポーズ回帰モデルは、1つの前方パスでクエリイメージからカメラポーズを推定します。
現在のモデルは、シーン毎にトレーニングされた深層畳み込みネットワークを使用して、画像からポーズエンコーディングを学ぶ。
ポーズ回帰にはシーン固有のポーズエンコーダは不要であり、視覚的類似性のために訓練されたエンコーディングを代わりに使用できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Visual pose regression models estimate the camera pose from a query image
with a single forward pass. Current models learn pose encoding from an image
using deep convolutional networks which are trained per scene. The resulting
encoding is typically passed to a multi-layer perceptron in order to regress
the pose. In this work, we propose that scene-specific pose encoders are not
required for pose regression and that encodings trained for visual similarity
can be used instead. In order to test our hypothesis, we take a shallow
architecture of several fully connected layers and train it with pre-computed
encodings from a generic image retrieval model. We find that these encodings
are not only sufficient to regress the camera pose, but that, when provided to
a branching fully connected architecture, a trained model can achieve
competitive results and even surpass current \textit{state-of-the-art} pose
regressors in some cases. Moreover, we show that for outdoor localization, the
proposed architecture is the only pose regressor, to date, consistently
localizing in under 2 meters and 5 degrees.
- Abstract(参考訳): 視覚的ポーズ回帰モデルは、単一の前方パスを持つクエリ画像からカメラのポーズを推定する。
現在のモデルは、シーン毎にトレーニングされた深層畳み込みネットワークを使用して、画像からポーズエンコーディングを学ぶ。
結果として生じるエンコーディングは通常、ポーズを後退させるために多層パーセプトロンに渡される。
本研究では,ポーズ回帰にシーン固有のポーズエンコーダを必要とせず,視覚的類似性を訓練したエンコーダを代わりに使用できることを提案する。
この仮説をテストするために、我々は複数の完全連結層からなる浅いアーキテクチャを、汎用画像検索モデルから事前に計算されたエンコーディングで学習する。
これらのエンコーディングは、カメラのポーズをリグレッシブするのに十分であるだけでなく、分岐した完全に接続されたアーキテクチャに提供すれば、トレーニングされたモデルは競争力のある結果を達成でき、場合によっては現在の \textit{state-of-the-art} のポーズレグレッシブを超えることさえある。
さらに, 屋外の局地化においては, 提案手法は, 2m以下, 5度以下で連続的に位置決めできる唯一のポーズ回帰器であることを示す。
関連論文リスト
- No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - Map-Relative Pose Regression for Visual Re-Localization [20.89982939633994]
本稿では,ポーズ回帰,マップ相対ポーズ回帰 (marepo) に対する新しいアプローチを提案する。
我々は、シーン固有の地図表現に対して、ポーズ予測がシーンマップに対して相対的であるように、ポーズ回帰器を条件とする。
提案手法は,屋内と屋外の2つの公開データセットにおいて,従来のポーズ回帰手法よりはるかに優れている。
論文 参考訳(メタデータ) (2024-04-15T15:53:23Z) - Coarse-to-Fine Multi-Scene Pose Regression with Transformers [19.927662512903915]
多層パーセプトロン(MLP)ヘッドを持つ畳み込みバックボーンは、画像とラベルを使用してトレーニングされ、一度に単一の参照を埋め込む。
本稿では,トランスフォーマーを用いて,アクティベーションマップを自己注意で集約するためにエンコーダを使用するマルチシーン絶対カメラポーズ回帰を学習することを提案する。
提案手法は,屋内および屋外のベンチマークデータセットで評価され,マルチシーンおよび最先端の単一シーンの絶対ポーズ回帰器を超越していることが示されている。
論文 参考訳(メタデータ) (2023-08-22T20:43:31Z) - Human Pose as Compositional Tokens [88.28348144244131]
本稿では,PoseをPCT(Compincial Tokens)と名づけた構造的表現について述べる。
これはM個の離散トークンによるポーズを表し、それぞれがいくつかの相互依存結合を持つ部分構造を特徴づける。
事前に学習したデコーダネットワークを使用してトークンからのポーズを後処理なしで復元する。
論文 参考訳(メタデータ) (2023-03-21T07:14:18Z) - A Probabilistic Framework for Visual Localization in Ambiguous Scenes [64.13544430239267]
本稿では,カメラポーズの任意の形状の後部分布を予測する確率的枠組みを提案する。
我々は、予測分布からサンプリングできる変分推論を用いて、カメラポーズ回帰の新たな定式化によってこれを行う。
本手法は,不明瞭なシーンの局所化において,既存の手法よりも優れる。
論文 参考訳(メタデータ) (2023-01-05T14:46:54Z) - Camera Pose Auto-Encoders for Improving Pose Regression [6.700873164609009]
カメラポーズオートエンコーダ(PAE)を導入し,APRを教師として用いたカメラポーズをエンコードする。
得られた潜在ポーズ表現は、APRのパフォーマンスを密に再現し、関連するタスクに対してそれらの効果を示すことができることを示す。
また、学習したポーズエンコーディングから列車画像の再構成が可能であることを示し、低メモリで設定した列車の視覚情報を統合する方法について検討した。
論文 参考訳(メタデータ) (2022-07-12T13:47:36Z) - Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。
提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z) - Visual Camera Re-Localization Using Graph Neural Networks and Relative
Pose Supervision [31.947525258453584]
視覚再局在化とは、単一の画像を入力として、予め記録された環境に対してカメラの位置と向きを推定する手段である。
提案手法は特別な仮定をほとんど行わず,訓練やテストでは極めて軽量である。
標準の屋内(7-Scenes)と屋外(Cambridge Landmarks)のカメラ再ローカリゼーションベンチマークに対するアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2021-04-06T14:29:03Z) - Learning Multi-Scene Absolute Pose Regression with Transformers [4.232614032390374]
多層パーセプトロンヘッドを備えた畳み込みバックボーンは、画像とポーズラベルで訓練され、一度に1つの参照シーンを埋め込む。
エンコーダを用いて自己アテンションでアクティベーションマップを集約するトランスフォーマーを用いて,マルチシーンの絶対カメラポーズ回帰を学習することを提案する。
本手法は,屋内および屋外の共通ベンチマークデータセット上で評価し,マルチシーンおよび最先端の1シーンの絶対ポーズレグレッタを上回っていることを示す。
論文 参考訳(メタデータ) (2021-03-21T19:21:44Z) - Back to the Feature: Learning Robust Camera Localization from Pixels to
Pose [114.89389528198738]
画像と3Dモデルから正確な6-DoFのポーズを推定するシーンに依存しないニューラルネットワークPixLocを導入する。
このシステムは、粗いポーズ前の大きな環境でもローカライズできるが、スパース特徴マッチングの精度も向上する。
論文 参考訳(メタデータ) (2021-03-16T17:40:12Z) - 6D Camera Relocalization in Ambiguous Scenes via Continuous Multimodal
Inference [67.70859730448473]
あいまいさと不確かさを捉えるマルチモーダルカメラ再ローカライズフレームワークを提案する。
我々は、複数のカメラのポーズ仮説を予測し、それぞれの予測の不確実性も予測する。
あいまいな環境下でのカメラローカライゼーション研究を促進するための新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-04-09T20:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。