論文の概要: Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data
- arxiv url: http://arxiv.org/abs/2407.08726v1
- Date: Thu, 11 Jul 2024 17:57:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 16:09:12.611587
- Title: Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data
- Title(参考訳): Map It Anywhere (MIA):大規模公開データを用いた鳥の眼球図の作成
- Authors: Cherie Ho, Jiaye Zou, Omar Alama, Sai Mitheran Jagadesh Kumar, Benjamin Chiang, Taneesh Gupta, Chen Wang, Nikhil Keetha, Katia Sycara, Sebastian Scherer,
- Abstract要約: トップダウンのBird's Eye View (BEV)マップは、下流タスクの豊かさと柔軟性のために、地上ロボットナビゲーションの一般的な表現である。
最近の手法では、ファーストパーソンビュー(FPV)画像からBEVマップを予測できることが示されている。
2つの大規模クラウドソースマッピングプラットフォームを利用することで,よりスケーラブルなマップ予測手法が実現可能であることを示す。
- 参考スコア(独自算出の注目度): 3.1968751101341173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Top-down Bird's Eye View (BEV) maps are a popular representation for ground robot navigation due to their richness and flexibility for downstream tasks. While recent methods have shown promise for predicting BEV maps from First-Person View (FPV) images, their generalizability is limited to small regions captured by current autonomous vehicle-based datasets. In this context, we show that a more scalable approach towards generalizable map prediction can be enabled by using two large-scale crowd-sourced mapping platforms, Mapillary for FPV images and OpenStreetMap for BEV semantic maps. We introduce Map It Anywhere (MIA), a data engine that enables seamless curation and modeling of labeled map prediction data from existing open-source map platforms. Using our MIA data engine, we display the ease of automatically collecting a dataset of 1.2 million pairs of FPV images & BEV maps encompassing diverse geographies, landscapes, environmental factors, camera models & capture scenarios. We further train a simple camera model-agnostic model on this data for BEV map prediction. Extensive evaluations using established benchmarks and our dataset show that the data curated by MIA enables effective pretraining for generalizable BEV map prediction, with zero-shot performance far exceeding baselines trained on existing datasets by 35%. Our analysis highlights the promise of using large-scale public maps for developing & testing generalizable BEV perception, paving the way for more robust autonomous navigation.
- Abstract(参考訳): トップダウンのBird's Eye View (BEV)マップは、下流タスクの豊かさと柔軟性のために、地上ロボットナビゲーションの一般的な表現である。
最近の手法では、ファーストパーソンビュー(FPV)画像からBEVマップを予測することが約束されているが、その一般化可能性は、現在の自動運転車ベースのデータセットによってキャプチャされた小さな領域に限られている。
この文脈では、大規模なクラウドソースマッピングプラットフォームであるFPVイメージのMapillaryとBEVセマンティックマップのOpenStreetMapを使って、よりスケーラブルなマップ予測を実現することができることを示す。
既存のオープンソースの地図プラットフォームからラベル付き地図予測データのシームレスなキュレーションとモデリングを可能にするデータエンジンであるMap It Anywhere (MIA)を紹介する。
MIAデータエンジンを使用して、さまざまな地理、風景、環境要因、カメラモデル、キャプチャーシナリオを含む120万対のFPVイメージとBEVマップのデータセットを自動的に収集する簡単さを表示します。
さらに、BEVマップ予測のために、このデータに基づいて、単純なカメラモデルに依存しないモデルをトレーニングする。
確立されたベンチマークとデータセットを用いた大規模な評価の結果,MIAによって算出されたデータは,既存のデータセットでトレーニングされたベースラインを35%超過したゼロショット性能で,一般化可能なBEVマップ予測のための効果的な事前学習を可能にすることが示された。
我々の分析は、より堅牢な自律ナビゲーションを実現するために、一般化可能なBEV知覚を開発、テストするために、大規模な公開マップを使用することの約束を強調している。
関連論文リスト
- RoadBEV: Road Surface Reconstruction in Bird's Eye View [55.0558717607946]
視覚に基づくオンライン道路再建は,道路情報を事前に収集する。
近年のBird's-Eye-View (BEV) の認識技術は、より信頼性と正確な再構築の可能性を秘めている。
本稿では,BEVにおける道路高架化モデルとして,RoadBEV-monoとRoadBEV-stereoの2つのモデルを提案する。
論文 参考訳(メタデータ) (2024-04-09T20:24:29Z) - Zero-BEV: Zero-shot Projection of Any First-Person Modality to BEV Maps [13.524499163234342]
本稿では,対応するBEVマップに対して,一人称視点で利用可能な任意のモダリティをゼロショット投影できる新しいモデルを提案する。
本研究では,本モデルが競合手法,特に単眼深度推定に広く用いられているベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-21T14:50:24Z) - U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based
Relocalization [86.63465798307728]
GPS受信が不十分な場合やセンサベースのローカライゼーションが失敗する場合、インテリジェントな車両には再ローカライゼーションが不可欠である。
Bird's-Eye-View (BEV)セグメンテーションの最近の進歩は、局所的な景観の正確な推定を可能にする。
本稿では,U-NetにインスパイアされたアーキテクチャであるU-BEVについて述べる。
論文 参考訳(メタデータ) (2023-10-20T18:57:38Z) - NeMO: Neural Map Growing System for Spatiotemporal Fusion in
Bird's-Eye-View and BDD-Map Benchmark [9.430779563669908]
視覚中心のBird's-Eye View表現は自律運転システムに不可欠である。
この研究は、読みやすく、説明可能なビッグマップを利用してローカルマップを生成するための、NeMOという新しいパラダイムを概説する。
すべてのBEVグリッドの特徴分布が同じパターンに従うと仮定して、すべてのグリッドに対して共有重み付きニューラルネットワークを採用して、ビッグマップを更新する。
論文 参考訳(メタデータ) (2023-06-07T15:46:15Z) - F2BEV: Bird's Eye View Generation from Surround-View Fisheye Camera
Images for Automated Driving [3.286961611175469]
魚眼画像からBEVの高さマップとBEVセマンティックセグメンテーションマップを生成するためのベースラインF2BEVを導入する。
F2BEVは、空間情報のクエリと統合のための歪み対応空間横断モジュールで構成される。
合成FB-SSEMデータセットを用いて,F2BEVの単一タスクおよびマルチタスク変異を評価した。
論文 参考訳(メタデータ) (2023-03-07T04:58:57Z) - Argoverse 2: Next Generation Datasets for Self-Driving Perception and
Forecasting [64.7364925689825]
Argoverse 2(AV2)は、自動運転分野の研究の知覚と予測のための3つのデータセットの集合である。
Lidarデータセットには、ラベルなしのLidar点雲とマップ整列ポーズの2万のシーケンスが含まれている。
Motion Forecastingデータセットには、各ローカルシーンにおける自動運転車と他のアクター間の興味深い、挑戦的なインタラクションのために採掘された25万のシナリオが含まれている。
論文 参考訳(メタデータ) (2023-01-02T00:36:22Z) - BEV-Locator: An End-to-end Visual Semantic Localization Network Using
Multi-View Images [13.258689143949912]
マルチビューカメラ画像を用いたエンドツーエンドの視覚的セマンティックローカライゼーションニューラルネットワークを提案する。
BEV-Locatorは、多目的シナリオ下での車両のポーズを推定することができる。
実験では, 平均絶対誤差が0.052m, 0.135m, 0.251$circ$, 横方向, 縦方向の翻訳, 方向角の程度で満足な精度を報告した。
論文 参考訳(メタデータ) (2022-11-27T20:24:56Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - BEV-MODNet: Monocular Camera based Bird's Eye View Moving Object
Detection for Autonomous Driving [2.9769485817170387]
CNNは、現場のグローバルコンテキストを活用して、より良いプロジェクトを作成することができる。
我々は、BEV空間内で5つのクラスを移動するオブジェクトマスクのアノテーションを備えた12.9k画像からなる拡張KITTI-rawデータセットを作成する。
簡単なベースライン実装を用いてmIoUの13%の大幅な改善を観測した。
論文 参考訳(メタデータ) (2021-07-11T01:11:58Z) - OpenREALM: Real-time Mapping for Unmanned Aerial Vehicles [62.997667081978825]
OpenREALMは無人航空機(UAV)のリアルタイムマッピングフレームワークである
異なる操作モードにより、OpenREALMは近似平面場を仮定して単純な縫合を行うことができる。
すべてのモードにおいて、結果のマップの漸進的な進捗は、地上のオペレータによってライブで見ることができる。
論文 参考訳(メタデータ) (2020-09-22T12:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。