論文の概要: Learning Camera Localization via Dense Scene Matching
- arxiv url: http://arxiv.org/abs/2103.16792v1
- Date: Wed, 31 Mar 2021 03:47:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 14:35:36.432704
- Title: Learning Camera Localization via Dense Scene Matching
- Title(参考訳): Dense Scene Matchingによるカメラのローカライゼーション学習
- Authors: Shitao Tang, Chengzhou Tang, Rui Huang, Siyu Zhu, Ping Tan
- Abstract要約: カメラローカライゼーションは、rgb画像から6つのdofカメラポーズを推定することを目的としている。
最近の学習に基づくアプローチは、構造を特定の畳み込みニューラルネットワーク(CNN)にエンコードする
濃密マッチング(DSM)を用いた新しいカメラローカライズ手法を提案する。
- 参考スコア(独自算出の注目度): 45.0957383562443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera localization aims to estimate 6 DoF camera poses from RGB images.
Traditional methods detect and match interest points between a query image and
a pre-built 3D model. Recent learning-based approaches encode scene structures
into a specific convolutional neural network (CNN) and thus are able to predict
dense coordinates from RGB images. However, most of them require re-training or
re-adaption for a new scene and have difficulties in handling large-scale
scenes due to limited network capacity. We present a new method for scene
agnostic camera localization using dense scene matching (DSM), where a cost
volume is constructed between a query image and a scene. The cost volume and
the corresponding coordinates are processed by a CNN to predict dense
coordinates. Camera poses can then be solved by PnP algorithms. In addition,
our method can be extended to temporal domain, which leads to extra performance
boost during testing time. Our scene-agnostic approach achieves comparable
accuracy as the existing scene-specific approaches, such as KFNet, on the
7scenes and Cambridge benchmark. This approach also remarkably outperforms
state-of-the-art scene-agnostic dense coordinate regression network SANet. The
Code is available at https://github.com/Tangshitao/Dense-Scene-Matching.
- Abstract(参考訳): カメラローカライゼーションは、rgb画像から6つのdofカメラポーズを推定することを目的としている。
従来の方法では,クエリイメージと構築済みの3dモデルの間の関心点を検出し,一致させる。
最近の学習に基づくアプローチでは、シーン構造を特定の畳み込みニューラルネットワーク(cnn)にエンコードし、rgb画像から高密度座標を予測できる。
しかし、そのほとんどは新しいシーンの再訓練や再適応が必要であり、ネットワーク容量の制限により大規模なシーンを扱うのが困難である。
本研究では,シーンマッチング(dsm)を用いて,クエリ画像とシーン間のコストボリュームを構成できる,シーン非依存なカメラ位置推定手法を提案する。
コストボリュームと対応する座標はcnnによって処理され、密座標を予測する。
カメラポーズはpnpアルゴリズムによって解決される。
さらに,本手法は時間領域に拡張可能であり,テスト時間にさらなる性能向上をもたらす。
我々のシーンに依存しないアプローチは、KFNetのような既存のシーン固有のアプローチと7scenesとCambridgeベンチマークで同等の精度を達成する。
このアプローチは、最先端のシーンに依存しない高密度座標回帰ネットワークSANetを著しく上回る。
コードはhttps://github.com/tangshitao/dense-scene-matchingで入手できる。
関連論文リスト
- GLACE: Global Local Accelerated Coordinate Encoding [66.87005863868181]
シーン座標回帰法は小規模なシーンでは有効であるが、大規模シーンでは重大な課題に直面している。
本研究では,事前学習したグローバルおよびローカルのエンコーディングを統合したGLACEを提案する。
提案手法は,低マップサイズモデルを用いて,大規模シーンにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:59:50Z) - Improved Scene Landmark Detection for Camera Localization [11.56648898250606]
シーンランドマーク検出(SLD)に基づく手法が近年提案されている。
畳み込みニューラルネットワーク(CNN)をトレーニングして、所定の、健全でシーン固有の3Dポイントやランドマークを検出する。
トレーニング中はモデル容量とノイズラベルが不足していたため,精度の差がみられた。
論文 参考訳(メタデータ) (2024-01-31T18:59:12Z) - SACReg: Scene-Agnostic Coordinate Regression for Visual Localization [16.866303169903237]
本稿では,新しいテストシーンで1回トレーニングされた一般化SCRモデルを提案する。
我々のモデルは、シーン座標をネットワーク重みに符号化する代わりに、スパース2Dピクセルのデータベースイメージを3D座標アノテーションに入力する。
画像のデータベース表現とその2D-3Dアノテーションは,局所化性能を損なうことなく,高度に圧縮できることを示す。
論文 参考訳(メタデータ) (2023-07-21T16:56:36Z) - HSCNet++: Hierarchical Scene Coordinate Classification and Regression
for Visual Localization with Transformer [23.920690073252636]
本稿では,1枚のRGB画像から画素シーン座標を粗い方法で予測する階層的なシーン座標ネットワークを提案する。
提案手法は,HSCNetの拡張であり,大規模環境にロバストにスケールするコンパクトモデルの訓練を可能にする。
論文 参考訳(メタデータ) (2023-05-05T15:00:14Z) - NeuMap: Neural Coordinate Mapping by Auto-Transdecoder for Camera
Localization [60.73541222862195]
NeuMapは、カメラのローカライゼーションのためのエンドツーエンドのニューラルマッピング手法である。
シーン全体を遅延コードグリッドにエンコードし、Transformerベースのオートデコーダがクエリピクセルの3D座標を回帰する。
論文 参考訳(メタデータ) (2022-11-21T04:46:22Z) - Graph Attention Network for Camera Relocalization on Dynamic Scenes [1.0398909602421018]
動的環境における画像カメラの位置を推定するために,シーントライアングルメッシュ表現を学習するためのグラフアテンションネットワークに基づくアプローチを考案する。
室内カメラの動的再局在化のためのRIO10ベンチマークにおいて,最先端手法のカメラポーズ精度を0.358ドルから0.506ドルに改善した。
論文 参考訳(メタデータ) (2022-09-29T18:57:52Z) - Visual Localization via Few-Shot Scene Region Classification [84.34083435501094]
ビジュアル(再)ローカライゼーションは、既知のシーンでキャプチャされたクエリイメージの6-DoFカメラのポーズを推定する問題に対処する。
画像画素からシーン座標へのマッピングを記憶することで,この問題を解決する。
シーン領域の分類手法を提案する。
論文 参考訳(メタデータ) (2022-08-14T22:39:02Z) - VS-Net: Voting with Segmentation for Visual Localization [72.8165619061249]
本稿では,クエリ画像と3Dマップ間の2次元から3次元の対応を学習可能なシーン固有のランドマークで構築する,新しい視覚的ローカライゼーションフレームワークを提案する。
提案したVS-Netは、複数の公開ベンチマークで広範囲にテストされており、最先端のビジュアルローカライゼーション手法より優れている。
論文 参考訳(メタデータ) (2021-05-23T08:44:11Z) - Back to the Feature: Learning Robust Camera Localization from Pixels to
Pose [114.89389528198738]
画像と3Dモデルから正確な6-DoFのポーズを推定するシーンに依存しないニューラルネットワークPixLocを導入する。
このシステムは、粗いポーズ前の大きな環境でもローカライズできるが、スパース特徴マッチングの精度も向上する。
論文 参考訳(メタデータ) (2021-03-16T17:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。