論文の概要: Do We Really Need Scene-specific Pose Encoders?
- arxiv url: http://arxiv.org/abs/2012.12014v1
- Date: Tue, 22 Dec 2020 13:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 07:46:34.669888
- Title: Do We Really Need Scene-specific Pose Encoders?
- Title(参考訳): シーン固有のポーズエンコーダは本当に必要か?
- Authors: Yoli Shavit and Ron Ferens
- Abstract要約: 視覚ポーズ回帰モデルは、1つの前方パスでクエリイメージからカメラポーズを推定します。
現在のモデルは、シーン毎にトレーニングされた深層畳み込みネットワークを使用して、画像からポーズエンコーディングを学ぶ。
ポーズ回帰にはシーン固有のポーズエンコーダは不要であり、視覚的類似性のために訓練されたエンコーディングを代わりに使用できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Visual pose regression models estimate the camera pose from a query image
with a single forward pass. Current models learn pose encoding from an image
using deep convolutional networks which are trained per scene. The resulting
encoding is typically passed to a multi-layer perceptron in order to regress
the pose. In this work, we propose that scene-specific pose encoders are not
required for pose regression and that encodings trained for visual similarity
can be used instead. In order to test our hypothesis, we take a shallow
architecture of several fully connected layers and train it with pre-computed
encodings from a generic image retrieval model. We find that these encodings
are not only sufficient to regress the camera pose, but that, when provided to
a branching fully connected architecture, a trained model can achieve
competitive results and even surpass current \textit{state-of-the-art} pose
regressors in some cases. Moreover, we show that for outdoor localization, the
proposed architecture is the only pose regressor, to date, consistently
localizing in under 2 meters and 5 degrees.
- Abstract(参考訳): 視覚的ポーズ回帰モデルは、単一の前方パスを持つクエリ画像からカメラのポーズを推定する。
現在のモデルは、シーン毎にトレーニングされた深層畳み込みネットワークを使用して、画像からポーズエンコーディングを学ぶ。
結果として生じるエンコーディングは通常、ポーズを後退させるために多層パーセプトロンに渡される。
本研究では,ポーズ回帰にシーン固有のポーズエンコーダを必要とせず,視覚的類似性を訓練したエンコーダを代わりに使用できることを提案する。
この仮説をテストするために、我々は複数の完全連結層からなる浅いアーキテクチャを、汎用画像検索モデルから事前に計算されたエンコーディングで学習する。
これらのエンコーディングは、カメラのポーズをリグレッシブするのに十分であるだけでなく、分岐した完全に接続されたアーキテクチャに提供すれば、トレーニングされたモデルは競争力のある結果を達成でき、場合によっては現在の \textit{state-of-the-art} のポーズレグレッシブを超えることさえある。
さらに, 屋外の局地化においては, 提案手法は, 2m以下, 5度以下で連続的に位置決めできる唯一のポーズ回帰器であることを示す。
関連論文リスト
- Animatable Neural Radiance Fields from Monocular RGB-D [68.37767099240236]
本稿では,各フレーム間の観察を統合し,各フレームの外観を符号化する新しい手法を提案する。
本手法は,フレーム間の人間のポーズに固定された潜在符号の共有集合を同時に学習する。
人間のポーズベースのコードはパフォーマーの形状をモデル化するが、ポイントクラウドベースのコードは、見知らぬポーズで欠けている構造の詳細と理由を予測する。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z) - Hallucinating Pose-Compatible Scenes [55.064949607528405]
ポーズ条件付きシーン生成のための大規模生成対向ネットワークを提案する。
毎日の環境に1900万フレーム以上の人間がいる巨大なメタデータをキュレートします。
我々は、ポーズ互換シーンを人間の有無に関わらず幻覚化し、不整合シーンやポーズを可視化し、1つの生成された画像から別のシーンに人物を配置し、ポーズをアニメーションする様々な用途に、トレーニングされたモデルを活用する。
論文 参考訳(メタデータ) (2021-12-13T18:59:26Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Pose with Style: Detail-Preserving Pose-Guided Image Synthesis with
Conditional StyleGAN [88.62422914645066]
任意のポーズで1つの画像から人物を再レンダリングするアルゴリズムを提案する。
既存の方法では、画像の同一性や細部を保ちながら、隠蔽されたコンテンツを写実的に幻覚することはしばしば困難である。
本手法は, 定量的評価と視覚的比較の両方において, 最先端のアルゴリズムと良好に比較できることを示す。
論文 参考訳(メタデータ) (2021-09-13T17:59:33Z) - Visual Camera Re-Localization Using Graph Neural Networks and Relative
Pose Supervision [31.947525258453584]
視覚再局在化とは、単一の画像を入力として、予め記録された環境に対してカメラの位置と向きを推定する手段である。
提案手法は特別な仮定をほとんど行わず,訓練やテストでは極めて軽量である。
標準の屋内(7-Scenes)と屋外(Cambridge Landmarks)のカメラ再ローカリゼーションベンチマークに対するアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2021-04-06T14:29:03Z) - Paying Attention to Activation Maps in Camera Pose Regression [4.232614032390374]
カメラポーズ回帰手法は、クエリ画像に単一のフォワードパスを適用してカメラポーズを推定する。
畳み込みアクティベーションマップをシーケンシャル入力として使用するポーズ回帰のための注意に基づくアプローチを提案する。
提案手法は,現代のポーズレグレッサー方式に好適に比較し,複数のベンチマークにまたがる最先端の精度を実現する。
論文 参考訳(メタデータ) (2021-03-21T20:10:15Z) - Learning Multi-Scene Absolute Pose Regression with Transformers [4.232614032390374]
多層パーセプトロンヘッドを備えた畳み込みバックボーンは、画像とポーズラベルで訓練され、一度に1つの参照シーンを埋め込む。
エンコーダを用いて自己アテンションでアクティベーションマップを集約するトランスフォーマーを用いて,マルチシーンの絶対カメラポーズ回帰を学習することを提案する。
本手法は,屋内および屋外の共通ベンチマークデータセット上で評価し,マルチシーンおよび最先端の1シーンの絶対ポーズレグレッタを上回っていることを示す。
論文 参考訳(メタデータ) (2021-03-21T19:21:44Z) - Back to the Feature: Learning Robust Camera Localization from Pixels to
Pose [114.89389528198738]
画像と3Dモデルから正確な6-DoFのポーズを推定するシーンに依存しないニューラルネットワークPixLocを導入する。
このシステムは、粗いポーズ前の大きな環境でもローカライズできるが、スパース特徴マッチングの精度も向上する。
論文 参考訳(メタデータ) (2021-03-16T17:40:12Z) - Deep Dual Consecutive Network for Human Pose Estimation [44.41818683253614]
キーポイント検出を容易にするために,ビデオフレーム間の時間的キューを豊富に活用した,新しいマルチフレーム人間ポーズ推定フレームワークを提案する。
本手法は、PoseTrack 2017およびPoseTrack 2018の大規模ベンチマークデータセットにおけるマルチフレームパーソンポースチャレンジチャレンジで1位にランクインします。
論文 参考訳(メタデータ) (2021-03-12T13:11:27Z) - Unsupervised Novel View Synthesis from a Single Image [47.37120753568042]
単一の画像からの新しいビュー合成は、オブジェクトの単一入力画像から新しいビューを生成することを目的としている。
本研究の目的は、新しいビュー合成のための条件付き生成モデルの訓練を、完全に教師なしの方法で行えるようにすることで、この仮定を緩和することである。
論文 参考訳(メタデータ) (2021-02-05T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。