論文の概要: Back to the Feature: Learning Robust Camera Localization from Pixels to
Pose
- arxiv url: http://arxiv.org/abs/2103.09213v1
- Date: Tue, 16 Mar 2021 17:40:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 13:25:53.284148
- Title: Back to the Feature: Learning Robust Camera Localization from Pixels to
Pose
- Title(参考訳): back to the feature: ピクセルからポーズまでロバストなカメラのローカライズを学ぶ
- Authors: Paul-Edouard Sarlin, Ajaykumar Unagar, M{\aa}ns Larsson, Hugo Germain,
Carl Toft, Viktor Larsson, Marc Pollefeys, Vincent Lepetit, Lars
Hammarstrand, Fredrik Kahl, Torsten Sattler
- Abstract要約: 画像と3Dモデルから正確な6-DoFのポーズを推定するシーンに依存しないニューラルネットワークPixLocを導入する。
このシステムは、粗いポーズ前の大きな環境でもローカライズできるが、スパース特徴マッチングの精度も向上する。
- 参考スコア(独自算出の注目度): 114.89389528198738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera pose estimation in known scenes is a 3D geometry task recently tackled
by multiple learning algorithms. Many regress precise geometric quantities,
like poses or 3D points, from an input image. This either fails to generalize
to new viewpoints or ties the model parameters to a specific scene. In this
paper, we go Back to the Feature: we argue that deep networks should focus on
learning robust and invariant visual features, while the geometric estimation
should be left to principled algorithms. We introduce PixLoc, a scene-agnostic
neural network that estimates an accurate 6-DoF pose from an image and a 3D
model. Our approach is based on the direct alignment of multiscale deep
features, casting camera localization as metric learning. PixLoc learns strong
data priors by end-to-end training from pixels to pose and exhibits exceptional
generalization to new scenes by separating model parameters and scene geometry.
The system can localize in large environments given coarse pose priors but also
improve the accuracy of sparse feature matching by jointly refining keypoints
and poses with little overhead. The code will be publicly available at
https://github.com/cvg/pixloc.
- Abstract(参考訳): 既知のシーンでのカメラポーズ推定は、最近複数の学習アルゴリズムが取り組んだ3dジオメトリタスクである。
入力画像からのポーズや3dポイントなど、多くのレグレッシブな幾何学的量。
これは、新しい視点への一般化に失敗するか、モデルパラメータを特定のシーンに結び付ける。
より深いネットワークは、頑健で不変な視覚的特徴を学習することに集中すべきであり、幾何学的推定は原理化されたアルゴリズムに委ねるべきである。
画像と3Dモデルから正確な6-DoFポーズを推定するシーン非依存ニューラルネットワークPixLocを導入する。
このアプローチは,マルチスケールの深層機能の直接アライメントに基づいて,距離学習としてカメラのローカライズを行う。
PixLocは、ピクセルからエンドツーエンドのトレーニングによって強力なデータを学習し、モデルパラメータとシーン幾何学を分離することで、新しいシーンに例外的な一般化を示す。
このシステムは、粗いポーズの先行を与えられた大きな環境においてローカライズすることができるが、キーポイントを共同で精製し、オーバーヘッドを少なくすることでスパース特徴マッチングの精度を向上させることができる。
コードはhttps://github.com/cvg/pixloc.comで公開されている。
関連論文リスト
- GeoCalib: Learning Single-image Calibration with Geometric Optimization [89.84142934465685]
単一の画像から視覚的な手がかりは、焦点距離や重力方向などの内在的および外在的なカメラパラメータを推定するのに役立ちます。
この問題に対する現在のアプローチは、行と消滅点を持つ古典幾何学か、エンドツーエンドで訓練されたディープニューラルネットワークに基づいている。
最適化プロセスを通じて3次元幾何学の普遍的な規則を利用するディープニューラルネットワークであるGeoCalibを紹介する。
論文 参考訳(メタデータ) (2024-09-10T17:59:55Z) - Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - LEAP: Liberate Sparse-view 3D Modeling from Camera Poses [28.571234973474077]
スパースビュー3DモデリングのためのポーズレスアプローチであるLEAPを提案する。
LEAPはポーズベースの操作を捨て、データから幾何学的知識を学ぶ。
LEAPは,最先端のポーズ推定器から予測されたポーズを用いた場合,先行手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-02T17:59:37Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Object-Based Visual Camera Pose Estimation From Ellipsoidal Model and
3D-Aware Ellipse Prediction [2.016317500787292]
本稿では,1枚の画像から初期カメラのポーズ推定を行う手法を提案する。
観察条件に関係なく、物体を確実に検出する深層学習技術を活用する。
実験により,提案手法により計算結果の精度が著しく向上することが確認された。
論文 参考訳(メタデータ) (2022-03-09T10:00:52Z) - Pixel-Perfect Structure-from-Motion with Featuremetric Refinement [96.73365545609191]
複数視点からの低レベル画像情報を直接アライメントすることで、動きからの2つの重要なステップを洗練する。
これにより、様々なキーポイント検出器のカメラポーズとシーン形状の精度が大幅に向上する。
本システムは,大規模な画像コレクションに容易にスケールできるので,クラウドソースによる大規模なローカライゼーションを実現することができる。
論文 参考訳(メタデータ) (2021-08-18T17:58:55Z) - Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。
以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文 参考訳(メタデータ) (2021-04-21T00:35:32Z) - Shape and Viewpoint without Keypoints [63.26977130704171]
本研究では,1枚の画像から3次元形状,ポーズ,テクスチャを復元する学習フレームワークを提案する。
我々は,3次元形状,マルチビュー,カメラ視点,キーポイントの監督なしに画像収集を訓練した。
我々は、最先端のカメラ予測結果を取得し、オブジェクト間の多様な形状やテクスチャを予測することを学べることを示す。
論文 参考訳(メタデータ) (2020-07-21T17:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。