論文の概要: OrienterNet: Visual Localization in 2D Public Maps with Neural Matching
- arxiv url: http://arxiv.org/abs/2304.02009v1
- Date: Tue, 4 Apr 2023 17:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 12:44:51.273149
- Title: OrienterNet: Visual Localization in 2D Public Maps with Neural Matching
- Title(参考訳): OrienterNet:ニューラルマッチングによる2次元公開マップの視覚的ローカライゼーション
- Authors: Paul-Edouard Sarlin, Daniel DeTone, Tsun-Yi Yang, Armen Avetisyan,
Julian Straub, Tomasz Malisiewicz, Samuel Rota Bulo, Richard Newcombe, Peter
Kontschieder, Vasileios Balntas
- Abstract要約: OrienterNetは、人間が使用するのと同じ2Dセマンティックマップを使用して、イメージをサブメーター精度でローカライズできる最初のディープニューラルネットワークである。
OrienterNetは、OpenStreetMapからオープンでグローバルに利用可能なマップとニューラルバードのEye Viewをマッチングすることで、クエリイメージの位置と向きを推定する。
これを実現するために、自動車、自転車、歩行者の多様な視点から12都市で撮影された画像の大規模なクラウドソースデータセットを導入しました。
- 参考スコア(独自算出の注目度): 21.673020132276573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can orient themselves in their 3D environments using simple 2D maps.
Differently, algorithms for visual localization mostly rely on complex 3D point
clouds that are expensive to build, store, and maintain over time. We bridge
this gap by introducing OrienterNet, the first deep neural network that can
localize an image with sub-meter accuracy using the same 2D semantic maps that
humans use. OrienterNet estimates the location and orientation of a query image
by matching a neural Bird's-Eye View with open and globally available maps from
OpenStreetMap, enabling anyone to localize anywhere such maps are available.
OrienterNet is supervised only by camera poses but learns to perform semantic
matching with a wide range of map elements in an end-to-end manner. To enable
this, we introduce a large crowd-sourced dataset of images captured across 12
cities from the diverse viewpoints of cars, bikes, and pedestrians. OrienterNet
generalizes to new datasets and pushes the state of the art in both robotics
and AR scenarios. The code and trained model will be released publicly.
- Abstract(参考訳): 人間は2dマップを使って3d環境に身を寄せることができる。
視覚的なローカライズのためのアルゴリズムは、時間とともに構築、保存、保守にコストがかかる複雑な3dポイントクラウドに依存することが多い。
OrienterNetは、人間が使用するのと同じ2Dセマンティックマップを使用して、イメージをサブメーター精度でローカライズできる最初のディープニューラルネットワークです。
OrienterNetは、ニューラルネットワークのBird-Eye ViewとOpenStreetMapのオープンでグローバルに利用可能なマップをマッチングすることで、クエリイメージの位置と向きを推定する。
OrienterNetはカメラのポーズによってのみ監視されるが、エンド・ツー・エンドの方法で広範囲のマップ要素とセマンティックマッチングを実行することを学ぶ。
これを実現するために,車,自転車,歩行者の多様な視点から12都市にまたがって撮影された画像の,クラウドソースによる大規模データセットを紹介する。
OrienterNetは、新しいデータセットに一般化し、ロボティクスとARシナリオの両方で、最先端の技術をプッシュする。
コードとトレーニングされたモデルは公開されます。
関連論文リスト
- Continuous 3D Perception Model with Persistent State [111.83854602049222]
広い範囲の3Dタスクを解くことができる統一的なフレームワークを提案する。
我々のアプローチでは、新しい観測毎に状態表現を継続的に更新するステートフルなリカレントモデルが特徴である。
各種3D/4Dタスクにおける本手法の評価を行い,各課題における競合性や最先端性能を実証する。
論文 参考訳(メタデータ) (2025-01-21T18:59:23Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - SNAP: Self-Supervised Neural Maps for Visual Positioning and Semantic
Understanding [57.108301842535894]
我々は、地上と頭上の画像からリッチなニューラル2Dマップを学習するディープネットワークSNAPを紹介する。
我々は、異なる入力から推定されるニューラルマップの整列をトレーニングし、何千万ものストリートビュー画像のカメラポーズでのみ監視する。
SNAPは、従来の手法の範囲を超えて、挑戦的な画像クエリの場所を解決できる。
論文 参考訳(メタデータ) (2023-06-08T17:54:47Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - 3DoF Localization from a Single Image and an Object Map: the Flatlandia
Problem and Dataset [20.986848597435728]
本稿では,新しい視覚的ローカライゼーション課題であるFlatlandiaを提案する。
地図内の対象の既知の空間的レイアウトに対して検出された共通オブジェクトのレイアウトを比較することで、視覚的クエリーをローカライズできるかどうかを検討する。
それぞれに対して,初期ベースラインモデルを提案し,最先端の6DoF法と3DoF法と比較する。
論文 参考訳(メタデータ) (2023-04-13T09:53:09Z) - Bidirectional Projection Network for Cross Dimension Scene Understanding [69.29443390126805]
本稿では,2次元および3次元の連立推論のための縦方向投影網(BPNet)をエンドツーエンドに提示する。
emphBPM、補完的な2D、および3D情報は、複数のアーキテクチャレベルで相互に相互作用することができる。
我々のemphBPNetは2次元および3次元セマンティックセマンティックセグメンテーションのためのScanNetV2ベンチマークで最高性能を達成した。
論文 参考訳(メタデータ) (2021-03-26T08:31:39Z) - Crowdsourced 3D Mapping: A Combined Multi-View Geometry and
Self-Supervised Learning Approach [10.610403488989428]
本稿では,意味的意味のあるランドマークの3次元位置を,カメラ固有の知識を仮定せずに推定するフレームワークを提案する。
交通標識の位置推定には,多視点幾何と深層学習に基づく自己校正,深度,エゴモーション推定を利用する。
我々はそれぞれ39cmと1.26mの平均単方向相対位置と絶対位置の精度を達成した。
論文 参考訳(メタデータ) (2020-07-25T12:10:16Z) - 3D Crowd Counting via Geometric Attention-guided Multi-View Fusion [50.520192402702015]
本稿では,3次元シーンレベルの密度マップと3次元特徴融合により,多視点群カウントタスクを解くことを提案する。
2D融合と比較すると、3D融合はz次元(高さ)に沿った人々のより多くの情報を抽出し、複数のビューにわたるスケールの変動に対処するのに役立つ。
3D密度マップは、和がカウントである2D密度マップの特性を保ちながら、群衆密度に関する3D情報も提供する。
論文 参考訳(メタデータ) (2020-03-18T11:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。