Fugu-MT 論文翻訳(概要): Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data

論文の概要: Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data

arxiv url: http://arxiv.org/abs/2407.08726v1
Date: Thu, 11 Jul 2024 17:57:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-12 16:09:12.611587
Title: Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data
Title（参考訳）: Map It Anywhere (MIA):大規模公開データを用いた鳥の眼球図の作成
Authors: Cherie Ho, Jiaye Zou, Omar Alama, Sai Mitheran Jagadesh Kumar, Benjamin Chiang, Taneesh Gupta, Chen Wang, Nikhil Keetha, Katia Sycara, Sebastian Scherer,
Abstract要約: トップダウンのBird's Eye View (BEV)マップは、下流タスクの豊かさと柔軟性のために、地上ロボットナビゲーションの一般的な表現である。最近の手法では、ファーストパーソンビュー(FPV)画像からBEVマップを予測できることが示されている。 2つの大規模クラウドソースマッピングプラットフォームを利用することで,よりスケーラブルなマップ予測手法が実現可能であることを示す。
参考スコア（独自算出の注目度）: 3.1968751101341173
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Top-down Bird's Eye View (BEV) maps are a popular representation for ground robot navigation due to their richness and flexibility for downstream tasks. While recent methods have shown promise for predicting BEV maps from First-Person View (FPV) images, their generalizability is limited to small regions captured by current autonomous vehicle-based datasets. In this context, we show that a more scalable approach towards generalizable map prediction can be enabled by using two large-scale crowd-sourced mapping platforms, Mapillary for FPV images and OpenStreetMap for BEV semantic maps. We introduce Map It Anywhere (MIA), a data engine that enables seamless curation and modeling of labeled map prediction data from existing open-source map platforms. Using our MIA data engine, we display the ease of automatically collecting a dataset of 1.2 million pairs of FPV images & BEV maps encompassing diverse geographies, landscapes, environmental factors, camera models & capture scenarios. We further train a simple camera model-agnostic model on this data for BEV map prediction. Extensive evaluations using established benchmarks and our dataset show that the data curated by MIA enables effective pretraining for generalizable BEV map prediction, with zero-shot performance far exceeding baselines trained on existing datasets by 35%. Our analysis highlights the promise of using large-scale public maps for developing & testing generalizable BEV perception, paving the way for more robust autonomous navigation.
Abstract（参考訳）: トップダウンのBird's Eye View (BEV)マップは、下流タスクの豊かさと柔軟性のために、地上ロボットナビゲーションの一般的な表現である。最近の手法では、ファーストパーソンビュー(FPV)画像からBEVマップを予測することが約束されているが、その一般化可能性は、現在の自動運転車ベースのデータセットによってキャプチャされた小さな領域に限られている。この文脈では、大規模なクラウドソースマッピングプラットフォームであるFPVイメージのMapillaryとBEVセマンティックマップのOpenStreetMapを使って、よりスケーラブルなマップ予測を実現することができることを示す。既存のオープンソースの地図プラットフォームからラベル付き地図予測データのシームレスなキュレーションとモデリングを可能にするデータエンジンであるMap It Anywhere (MIA)を紹介する。 MIAデータエンジンを使用して、さまざまな地理、風景、環境要因、カメラモデル、キャプチャーシナリオを含む120万対のFPVイメージとBEVマップのデータセットを自動的に収集する簡単さを表示します。さらに、BEVマップ予測のために、このデータに基づいて、単純なカメラモデルに依存しないモデルをトレーニングする。確立されたベンチマークとデータセットを用いた大規模な評価の結果,MIAによって算出されたデータは,既存のデータセットでトレーニングされたベースラインを35%超過したゼロショット性能で,一般化可能なBEVマップ予測のための効果的な事前学習を可能にすることが示された。我々の分析は、より堅牢な自律ナビゲーションを実現するために、一般化可能なBEV知覚を開発、テストするために、大規模な公開マップを使用することの約束を強調している。

関連論文リスト

Unified Human Localization and Trajectory Prediction with Monocular Vision [64.19384064365431]
MonoTransmotionはトランスフォーマーベースのフレームワークで、モノクロカメラのみを使用して、ローカライゼーションと予測タスクを共同で解決する。両タスクを統合フレームワークで共同でトレーニングすることにより,ノイズの多い入力による実環境シナリオにおいて,我々の手法がより堅牢であることを示す。
論文参考訳（メタデータ） (2025-03-05T14:18:39Z)
TopoSD: Topology-Enhanced Lane Segment Perception with SDMap Prior [70.84644266024571]
我々は、標準定義地図(SDMaps)を見るために知覚モデルを訓練することを提案する。我々はSDMap要素をニューラル空間マップ表現やインスタンストークンにエンコードし、先行情報のような補完的な特徴を組み込む。レーンセグメント表現フレームワークに基づいて、モデルはレーン、中心線、およびそれらのトポロジを同時に予測する。
論文参考訳（メタデータ） (2024-11-22T06:13:42Z)
VQ-Map: Bird's-Eye-View Map Layout Estimation in Tokenized Discrete Space via Vector Quantization [108.68014173017583]
Bird's-eye-view (BEV) マップのレイアウト推定には、エゴ車の周囲の環境要素のセマンティクスを正確に完全に理解する必要がある。本稿では,Vector Quantized-Variational AutoEncoder (VQ-VAE) に似た生成モデルを用いて,トークン化された離散空間における高レベルのBEVセマンティクスの事前知識を取得することを提案する。得られたBEVトークンには,異なるBEV要素のセマンティクスを包含したコードブックが組み込まれているため,スパースバックボーン画像特徴と得られたBEVトークンとを直接一致させることができる。
論文参考訳（メタデータ） (2024-11-03T16:09:47Z)
Enhancing Vectorized Map Perception with Historical Rasterized Maps [37.48510990922406]
我々は,オンラインベクトル化地図知覚を高めるために,低コストな履歴ラスタライズドマップを利用するHRMapNetを提案する。履歴化された地図は、過去の予測されたベクトル化された結果から容易に構築でき、貴重な補完情報を提供する。 HRMapNetは、ほとんどのオンラインベクトル化マップ認識手法と統合することができる。
論文参考訳（メタデータ） (2024-09-01T05:22:33Z)
Progressive Query Refinement Framework for Bird's-Eye-View Semantic Segmentation from Surrounding Images [3.495246564946556]
本稿では, 自律運転のためのバードズ・アイビュー(BEV)セマンティックセマンティックセグメンテーションにMR(Multi-Resolution)の概念を導入する。本稿では,画像間と特徴レベル間の相互作用を促進する視覚的特徴相互作用ネットワークを提案する。大規模な実世界のデータセットを用いて、我々のモデルを評価する。
論文参考訳（メタデータ） (2024-07-24T05:00:31Z)
Accelerating Online Mapping and Behavior Prediction via Direct BEV Feature Attention [30.190497345299004]
本稿では,オンライン地図推定手法の豊富な内部的特徴を明らかにするとともに,オンライン地図と軌跡予測をより緊密に統合する方法について述べる。これにより、内部のBEV機能に直接アクセスすると、推論速度が最大73%速くなり、実際のnuScenesデータセット上では最大29%の正確な予測が得られます。
論文参考訳（メタデータ） (2024-07-09T08:59:27Z)
Zero-BEV: Zero-shot Projection of Any First-Person Modality to BEV Maps [13.524499163234342]
本稿では,対応するBEVマップに対して,一人称視点で利用可能な任意のモダリティをゼロショット投影できる新しいモデルを提案する。本研究では,本モデルが競合手法,特に単眼深度推定に広く用いられているベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2024-02-21T14:50:24Z)
U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based Relocalization [81.76044207714637]
GPS受信が不十分な場合やセンサベースのローカライゼーションが失敗する場合、インテリジェントな車両には再ローカライゼーションが不可欠である。 Bird's-Eye-View (BEV)セグメンテーションの最近の進歩は、局所的な景観の正確な推定を可能にする。本稿では,U-NetにインスパイアされたアーキテクチャであるU-BEVについて述べる。
論文参考訳（メタデータ） (2023-10-20T18:57:38Z)
BEVTrack: A Simple and Strong Baseline for 3D Single Object Tracking in Bird's-Eye View [56.77287041917277]
3Dシングルオブジェクトトラッキング(SOT)はコンピュータビジョンの基本課題であり、自律運転のようなアプリケーションに不可欠なことを証明している。本稿では,単純で効果的なベースライン手法であるBEVTrackを提案する。 Bird's-Eye View (BEV) における目標運動を推定して追跡を行うことにより、BEVTrackは、ネットワーク設計、トレーニング目標、トラッキングパイプラインなど、様々な側面から驚くほどの単純さを示しながら、優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-09-05T12:42:26Z)
NeMO: Neural Map Growing System for Spatiotemporal Fusion in Bird's-Eye-View and BDD-Map Benchmark [9.430779563669908]
視覚中心のBird's-Eye View表現は自律運転システムに不可欠である。この研究は、読みやすく、説明可能なビッグマップを利用してローカルマップを生成するための、NeMOという新しいパラダイムを概説する。すべてのBEVグリッドの特徴分布が同じパターンに従うと仮定して、すべてのグリッドに対して共有重み付きニューラルネットワークを採用して、ビッグマップを更新する。
論文参考訳（メタデータ） (2023-06-07T15:46:15Z)
BEV-Locator: An End-to-end Visual Semantic Localization Network Using Multi-View Images [13.258689143949912]
マルチビューカメラ画像を用いたエンドツーエンドの視覚的セマンティックローカライゼーションニューラルネットワークを提案する。 BEV-Locatorは、多目的シナリオ下での車両のポーズを推定することができる。実験では, 平均絶対誤差が0.052m, 0.135m, 0.251$circ$, 横方向, 縦方向の翻訳, 方向角の程度で満足な精度を報告した。
論文参考訳（メタデータ） (2022-11-27T20:24:56Z)
Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文参考訳（メタデータ） (2022-11-15T13:52:41Z)
BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文参考訳（メタデータ） (2022-05-19T17:55:35Z)
BEV-MODNet: Monocular Camera based Bird's Eye View Moving Object Detection for Autonomous Driving [2.9769485817170387]
CNNは、現場のグローバルコンテキストを活用して、より良いプロジェクトを作成することができる。我々は、BEV空間内で5つのクラスを移動するオブジェクトマスクのアノテーションを備えた12.9k画像からなる拡張KITTI-rawデータセットを作成する。簡単なベースライン実装を用いてmIoUの13%の大幅な改善を観測した。
論文参考訳（メタデータ） (2021-07-11T01:11:58Z)
OpenREALM: Real-time Mapping for Unmanned Aerial Vehicles [62.997667081978825]
OpenREALMは無人航空機(UAV)のリアルタイムマッピングフレームワークである異なる操作モードにより、OpenREALMは近似平面場を仮定して単純な縫合を行うことができる。すべてのモードにおいて、結果のマップの漸進的な進捗は、地上のオペレータによってライブで見ることができる。
論文参考訳（メタデータ） (2020-09-22T12:28:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。