論文の概要: Pix2Map: Cross-modal Retrieval for Inferring Street Maps from Images
- arxiv url: http://arxiv.org/abs/2301.04224v2
- Date: Sun, 9 Apr 2023 21:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 21:02:58.461722
- Title: Pix2Map: Cross-modal Retrieval for Inferring Street Maps from Images
- Title(参考訳): Pix2Map:画像からストリートマップを推測するクロスモーダル検索
- Authors: Xindi Wu, KwunFung Lau, Francesco Ferroni, Aljo\v{s}a O\v{s}ep, Deva
Ramanan
- Abstract要約: 本稿では,エゴビュー画像から直接都市街路地図トポロジを推定するPix2Mapを紹介する。
この問題は、画像や既存の地図のジョイント、クロスモーダルな埋め込み空間を学習することで、クロスモーダル検索として表すことができる。
検索した地図は既存の地図を更新または拡張したり、概念実証結果を示すためにも利用できることを示す。
- 参考スコア(独自算出の注目度): 42.05213970259352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-driving vehicles rely on urban street maps for autonomous navigation. In
this paper, we introduce Pix2Map, a method for inferring urban street map
topology directly from ego-view images, as needed to continually update and
expand existing maps. This is a challenging task, as we need to infer a complex
urban road topology directly from raw image data. The main insight of this
paper is that this problem can be posed as cross-modal retrieval by learning a
joint, cross-modal embedding space for images and existing maps, represented as
discrete graphs that encode the topological layout of the visual surroundings.
We conduct our experimental evaluation using the Argoverse dataset and show
that it is indeed possible to accurately retrieve street maps corresponding to
both seen and unseen roads solely from image data. Moreover, we show that our
retrieved maps can be used to update or expand existing maps and even show
proof-of-concept results for visual localization and image retrieval from
spatial graphs.
- Abstract(参考訳): 自動運転車は都市部の道路地図に頼っている。
本稿では,既存の地図を継続的に更新・拡張するために,都市街路図のトポロジーを直接エゴビュー画像から推定するpix2mapを提案する。
生の画像データから直接複雑な都市道路トポロジーを推測する必要があるので、これは難しい作業です。
本研究の主な知見は,画像と既存地図の連接なクロスモーダルな埋め込み空間を学習することで,視覚環境のトポロジ的レイアウトを符号化する離散グラフとしてこの問題を提起できるということである。
我々はArgoverseデータセットを用いて実験評価を行い、画像データのみから見える道路と見えない道路の両方に対応する道路マップを正確に検索できることを示す。
さらに,検索した地図は既存の地図を更新・拡張したり,空間グラフからの視覚的位置付けや画像検索のための概念実証結果を示すことができる。
関連論文リスト
- TopoSD: Topology-Enhanced Lane Segment Perception with SDMap Prior [70.84644266024571]
我々は、標準定義地図(SDMaps)を見るために知覚モデルを訓練することを提案する。
我々はSDMap要素をニューラル空間マップ表現やインスタンストークンにエンコードし、先行情報のような補完的な特徴を組み込む。
レーンセグメント表現フレームワークに基づいて、モデルはレーン、中心線、およびそれらのトポロジを同時に予測する。
論文 参考訳(メタデータ) (2024-11-22T06:13:42Z) - Neural Semantic Map-Learning for Autonomous Vehicles [85.8425492858912]
本稿では,道路環境のコヒーレントな地図を作成するために,車両群から収集した局所部分写像を中心インスタンスに融合するマッピングシステムを提案する。
本手法は,シーン特異的なニューラルサイン距離場を用いて,雑音と不完全局所部分写像を併用する。
我々は,記憶効率の高いスパース機能グリッドを活用して大規模にスケールし,シーン再構築における不確実性をモデル化するための信頼スコアを導入する。
論文 参考訳(メタデータ) (2024-10-10T10:10:03Z) - Cross-view image geo-localization with Panorama-BEV Co-Retrieval Network [12.692812966686066]
クロスビュージオローカライゼーションは、地理参照衛星データベースとマッチングすることで、ストリートビュー画像の地理的位置を識別する。
そこで我々は,パノラマBEVコレトリヴァルネットワーク(Panorama-BEV Co-Retrieval Network)という,クロスビュー画像のジオローカライズのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-10T08:03:58Z) - CartoMark: a benchmark dataset for map pattern recognition and 1 map
content retrieval with machine intelligence [9.652629004863364]
我々は,地図テキストアノテーション認識,地図シーン分類,地図超解像再構成,地図スタイル転送のための大規模ベンチマークデータセットを開発した。
これらの良好なラベル付きデータセットは、マップ特徴の検出、マップパターン認識、マップコンテンツ検索を行う最先端のマシンインテリジェンス技術を促進する。
論文 参考訳(メタデータ) (2023-12-14T01:54:38Z) - SNAP: Self-Supervised Neural Maps for Visual Positioning and Semantic
Understanding [57.108301842535894]
我々は、地上と頭上の画像からリッチなニューラル2Dマップを学習するディープネットワークSNAPを紹介する。
我々は、異なる入力から推定されるニューラルマップの整列をトレーニングし、何千万ものストリートビュー画像のカメラポーズでのみ監視する。
SNAPは、従来の手法の範囲を超えて、挑戦的な画像クエリの場所を解決できる。
論文 参考訳(メタデータ) (2023-06-08T17:54:47Z) - Dataset of Pathloss and ToA Radio Maps With Localization Application [59.11388233415274]
データセットには、実都市地図における現実的な密集した都市環境の大規模なコレクションに、シミュレートされたパスロス/受信信号強度(RSS)と到着時刻(ToA)ラジオマップが含まれる。
提案データセットの2つの主な応用は,1)入力都市地図からパスロスを予測する学習方法,2)無線の局所化である。
RSSとToAマップが同じ都市マップ上で同じシミュレーションによって計算されているという事実は、RSSとToAベースのローカライゼーション手法を公平に比較することができる。
論文 参考訳(メタデータ) (2022-11-18T20:39:51Z) - A Survey on Visual Map Localization Using LiDARs and Cameras [0.0]
視覚マップのローカライゼーションを2段階プロセスとして定義する。
位置認識の段階では、視覚センサ出力とジオタグ付き地図領域の集合とを比較して、地図内の車両の初期位置を決定する。
地図距離定位の段階では、車両が地図を横切りながら追跡され、視界センサの出力と現在の地図の面積を連続的に調整する。
論文 参考訳(メタデータ) (2022-08-05T20:11:18Z) - csBoundary: City-scale Road-boundary Detection in Aerial Images for
High-definition Maps [10.082536828708779]
都市規模での道路境界の自動検出のためのcsBoundaryを提案する。
筆者らのネットワークは航空画像パッチを入力として,この画像から直接連続的な道路境界グラフを推定する。
私たちのcsBoundaryは、公開ベンチマークデータセットで評価され、比較されます。
論文 参考訳(メタデータ) (2021-11-11T02:04:36Z) - Learning Lane Graph Representations for Motion Forecasting [92.88572392790623]
生の地図データからレーングラフを構築し,地図構造を保存する。
我々は,アクター・トゥ・レーン,レーン・トゥ・レーン,レーン・トゥ・アクター,アクター・トゥ・アクターの4種類のインタラクションからなる融合ネットワークを利用する。
提案手法は,大規模Argoverse運動予測ベンチマークにおいて,最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-07-27T17:59:49Z) - Predicting Semantic Map Representations from Images using Pyramid
Occupancy Networks [27.86228863466213]
単一エンドツーエンドのディープラーニングアーキテクチャを用いて,単分子画像から直接マップを推定する,シンプルで統一的なアプローチを提案する。
提案手法の有効性を,NuScenesとArgoverseデータセット上のいくつかの挑戦的ベースラインに対して評価することで実証する。
論文 参考訳(メタデータ) (2020-03-30T12:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。