論文の概要: SNAP: Self-Supervised Neural Maps for Visual Positioning and Semantic
Understanding
- arxiv url: http://arxiv.org/abs/2306.05407v2
- Date: Wed, 1 Nov 2023 17:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 17:28:45.786547
- Title: SNAP: Self-Supervised Neural Maps for Visual Positioning and Semantic
Understanding
- Title(参考訳): SNAP:視覚的位置決めと意味理解のための自己監督型ニューラルネットワーク
- Authors: Paul-Edouard Sarlin, Eduard Trulls, Marc Pollefeys, Jan Hosang, Simon
Lynen
- Abstract要約: 我々は、地上と頭上の画像からリッチなニューラル2Dマップを学習するディープネットワークSNAPを紹介する。
我々は、異なる入力から推定されるニューラルマップの整列をトレーニングし、何千万ものストリートビュー画像のカメラポーズでのみ監視する。
SNAPは、従来の手法の範囲を超えて、挑戦的な画像クエリの場所を解決できる。
- 参考スコア(独自算出の注目度): 57.108301842535894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic 2D maps are commonly used by humans and machines for navigation
purposes, whether it's walking or driving. However, these maps have
limitations: they lack detail, often contain inaccuracies, and are difficult to
create and maintain, especially in an automated fashion. Can we use raw imagery
to automatically create better maps that can be easily interpreted by both
humans and machines? We introduce SNAP, a deep network that learns rich neural
2D maps from ground-level and overhead images. We train our model to align
neural maps estimated from different inputs, supervised only with camera poses
over tens of millions of StreetView images. SNAP can resolve the location of
challenging image queries beyond the reach of traditional methods,
outperforming the state of the art in localization by a large margin. Moreover,
our neural maps encode not only geometry and appearance but also high-level
semantics, discovered without explicit supervision. This enables effective
pre-training for data-efficient semantic scene understanding, with the
potential to unlock cost-efficient creation of more detailed maps.
- Abstract(参考訳): セマンティック2Dマップは、人間や機械が歩いたり運転したりするために一般的に使われている。
しかし、これらのマップには制限があり、詳細が欠落し、しばしば不正確な情報が含まれ、特に自動化された方法で作成と維持が困難である。
生画像を使って、人間と機械の両方で容易に解釈できるより良い地図を自動生成できますか?
我々は、地上と頭上の画像からリッチなニューラル2Dマップを学習するディープネットワークSNAPを紹介する。
我々は、異なる入力から推定されるニューラルマップの整列をトレーニングし、何千万ものストリートビュー画像のカメラポーズでのみ監視する。
SNAPは、従来の手法のリーチを超えた、挑戦的な画像クエリの場所を解決し、ローカライゼーションの最先端を大きなマージンで上回る。
さらに,我々のニューラルマップは,幾何学や外観だけでなく,明示的な監督なしに発見された高レベル意味論もエンコードしている。
これにより、データ効率の良いセマンティックシーン理解のための効果的な事前学習が可能になり、より詳細な地図の作成に費用効率がかかる可能性がある。
関連論文リスト
- TopoSD: Topology-Enhanced Lane Segment Perception with SDMap Prior [70.84644266024571]
我々は、標準定義地図(SDMaps)を見るために知覚モデルを訓練することを提案する。
我々はSDMap要素をニューラル空間マップ表現やインスタンストークンにエンコードし、先行情報のような補完的な特徴を組み込む。
レーンセグメント表現フレームワークに基づいて、モデルはレーン、中心線、およびそれらのトポロジを同時に予測する。
論文 参考訳(メタデータ) (2024-11-22T06:13:42Z) - DeepAerialMapper: Deep Learning-based Semi-automatic HD Map Creation for Highly Automated Vehicles [0.0]
高解像度空中画像からHDマップを作成するための半自動手法を提案する。
提案手法では, ニューラルネットワークを訓練して, 空中画像をHDマップに関連するクラスに意味的に分割する。
マップをLanelet2フォーマットにエクスポートすることで、さまざまなユースケースを簡単に拡張できる。
論文 参考訳(メタデータ) (2024-10-01T15:05:05Z) - MapVision: CVPR 2024 Autonomous Grand Challenge Mapless Driving Tech Report [6.598847563245353]
既存のアルゴリズムのほとんどは、多視点画像からBirdのアイビュー機能を構築していることがわかった。
これらのアルゴリズムは、画像の主被写体が隠されているとき、道路の端で性能が悪く、苦労している。
このコンペティションでは,マルチパースペクティブイメージを入力として使用するだけでなく,この問題に対処するためにSDマップも組み込んだ。
論文 参考訳(メタデータ) (2024-06-14T15:31:45Z) - Semantic Map-based Generation of Navigation Instructions [9.197756644049862]
画像キャプションタスクとして問題をフレーミングすることでナビゲーション命令生成に新たなアプローチを提案する。
従来のアプローチでは、ナビゲーション命令を生成するために一連のパノラマ画像を使用する。
セマンティックマップを用いた命令生成のためのベンチマークデータセットを提案し、初期モデルを提案し、人に対して、生成した命令の質を手動で評価するよう依頼する。
論文 参考訳(メタデータ) (2024-03-28T17:27:44Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - OrienterNet: Visual Localization in 2D Public Maps with Neural Matching [21.673020132276573]
OrienterNetは、人間が使用するのと同じ2Dセマンティックマップを使用して、イメージをサブメーター精度でローカライズできる最初のディープニューラルネットワークである。
OrienterNetは、OpenStreetMapからオープンでグローバルに利用可能なマップとニューラルバードのEye Viewをマッチングすることで、クエリイメージの位置と向きを推定する。
これを実現するために、自動車、自転車、歩行者の多様な視点から12都市で撮影された画像の大規模なクラウドソースデータセットを導入しました。
論文 参考訳(メタデータ) (2023-04-04T17:59:03Z) - Semantic Image Alignment for Vehicle Localization [111.59616433224662]
単眼カメラからのセマンティックセグメンテーションを用いた高密度セマンティックマップにおける車両位置推定手法を提案する。
既存の視覚的ローカライゼーションアプローチとは対照的に、システムは追加のキーポイント機能、手作りのローカライゼーションランドマーク抽出器、高価なLiDARセンサーを必要としない。
論文 参考訳(メタデータ) (2021-10-08T14:40:15Z) - Canonical Saliency Maps: Decoding Deep Face Models [47.036036069156104]
そこで本研究では, 顔面モデルにサリエンシーマップを投影し, 関連する顔面領域を強調表示する新しい手法"Canonical Saliency Map"を提案する。
提案手法は, アーキテクチャに関係なく, 任意の深層モデルで使用可能な正準塩分マップの有用性を示す。
論文 参考訳(メタデータ) (2021-05-04T09:42:56Z) - MP3: A Unified Model to Map, Perceive, Predict and Plan [84.07678019017644]
MP3は、入力が生のセンサーデータと高レベルのコマンドであるマップレス運転に対するエンドツーエンドのアプローチである。
提案手法は, より安全で, 快適であり, 長期クローズループシミュレーションにおいて, ベースラインよりもコマンドを追従できることを示す。
論文 参考訳(メタデータ) (2021-01-18T00:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。