論文の概要: AugMapNet: Improving Spatial Latent Structure via BEV Grid Augmentation for Enhanced Vectorized Online HD Map Construction
- arxiv url: http://arxiv.org/abs/2503.13430v1
- Date: Mon, 17 Mar 2025 17:55:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 16:00:31.789932
- Title: AugMapNet: Improving Spatial Latent Structure via BEV Grid Augmentation for Enhanced Vectorized Online HD Map Construction
- Title(参考訳): AugMapNet: 拡張ベクトル化オンラインHDマップ構築のためのBEVグリッド拡張による空間潜在構造の改善
- Authors: Thomas Monninger, Md Zafar Anwar, Stanislaw Antol, Steffen Staab, Sihao Ding,
- Abstract要約: AugMapNetは、潜伏したBEV表現を大幅に強化する新しいテクニックである。
nuScenesとArgoverse2データセットの実験では、ベクトル化されたマップ予測性能が大幅に改善された。
遅延BEVグリッドの詳細な解析により、AugMapNetのより構造化された遅延空間が確認できる。
- 参考スコア(独自算出の注目度): 10.651014925267859
- License:
- Abstract: Autonomous driving requires an understanding of the infrastructure elements, such as lanes and crosswalks. To navigate safely, this understanding must be derived from sensor data in real-time and needs to be represented in vectorized form. Learned Bird's-Eye View (BEV) encoders are commonly used to combine a set of camera images from multiple views into one joint latent BEV grid. Traditionally, from this latent space, an intermediate raster map is predicted, providing dense spatial supervision but requiring post-processing into the desired vectorized form. More recent models directly derive infrastructure elements as polylines using vectorized map decoders, providing instance-level information. Our approach, Augmentation Map Network (AugMapNet), proposes latent BEV grid augmentation, a novel technique that significantly enhances the latent BEV representation. AugMapNet combines vector decoding and dense spatial supervision more effectively than existing architectures while remaining as straightforward to integrate and as generic as auxiliary supervision. Experiments on nuScenes and Argoverse2 datasets demonstrate significant improvements in vectorized map prediction performance up to 13.3% over the StreamMapNet baseline on 60m range and greater improvements on larger ranges. We confirm transferability by applying our method to another baseline and find similar improvements. A detailed analysis of the latent BEV grid confirms a more structured latent space of AugMapNet and shows the value of our novel concept beyond pure performance improvement. The code will be released soon.
- Abstract(参考訳): 自動運転は、車線や横断歩道などのインフラ要素を理解する必要がある。
安全にナビゲートするには、この理解はリアルタイムでセンサーデータから導き出さなければならず、ベクトル化された形で表現する必要がある。
Learned Bird's-Eye View (BEV)エンコーダは、複数のビューからの一連のカメライメージを1つのジョイント潜在BEVグリッドに組み合わせるために一般的に使用される。
伝統的に、この潜伏空間から中間ラスタ写像が予測され、密度の高い空間監督を提供するが、所望のベクトル化形式に後処理を必要とする。
より最近のモデルは、インスタンスレベルの情報を提供するベクトル化マップデコーダを使用して、インフラストラクチャ要素を直接ポリラインとして導出する。
当社のアプローチであるAugMapMap Network(AugMapNet)は,遅延BEV表現を大幅に向上させる新しい手法である潜時BEVグリッド拡張を提案する。
AugMapNetは、既存のアーキテクチャよりもベクターデコーディングと密集した空間的監視を効果的に組み合わせつつ、統合しやすく、補助的な監視として一般的である。
nuScenesとArgoverse2データセットの実験では、60m範囲のStreamMapNetベースラインを最大13.3%上回るベクトル化されたマップ予測性能が大幅に改善され、より大きな範囲が改善された。
我々は,本手法を他のベースラインに適用することにより転送可能性を確認し,同様の改善を見いだした。
遅延BEVグリッドの詳細な解析により、AugMapNetのより構造化された遅延空間が確認され、純粋なパフォーマンス改善以上の新しい概念の価値が示されます。
コードはまもなくリリースされる。
関連論文リスト
- TopoSD: Topology-Enhanced Lane Segment Perception with SDMap Prior [70.84644266024571]
我々は、標準定義地図(SDMaps)を見るために知覚モデルを訓練することを提案する。
我々はSDMap要素をニューラル空間マップ表現やインスタンストークンにエンコードし、先行情報のような補完的な特徴を組み込む。
レーンセグメント表現フレームワークに基づいて、モデルはレーン、中心線、およびそれらのトポロジを同時に予測する。
論文 参考訳(メタデータ) (2024-11-22T06:13:42Z) - VQ-Map: Bird's-Eye-View Map Layout Estimation in Tokenized Discrete Space via Vector Quantization [108.68014173017583]
Bird's-eye-view (BEV) マップのレイアウト推定には、エゴ車の周囲の環境要素のセマンティクスを正確に完全に理解する必要がある。
本稿では,Vector Quantized-Variational AutoEncoder (VQ-VAE) に似た生成モデルを用いて,トークン化された離散空間における高レベルのBEVセマンティクスの事前知識を取得することを提案する。
得られたBEVトークンには,異なるBEV要素のセマンティクスを包含したコードブックが組み込まれているため,スパースバックボーン画像特徴と得られたBEVトークンとを直接一致させることができる。
論文 参考訳(メタデータ) (2024-11-03T16:09:47Z) - GenMapping: Unleashing the Potential of Inverse Perspective Mapping for Robust Online HD Map Construction [20.1127163541618]
我々はGenMappingというユニバーサルマップ生成フレームワークを設計した。
このフレームワークは、主および二重補助枝を含む三進的なシナジーアーキテクチャで構築されている。
実験結果の網羅的な配列から,提案手法はセマンティックマッピングとベクトル化マッピングの両方において最先端の手法を超越し,高速な推論速度を維持した。
論文 参考訳(メタデータ) (2024-09-13T10:15:28Z) - Accelerating Online Mapping and Behavior Prediction via Direct BEV Feature Attention [30.190497345299004]
本稿では,オンライン地図推定手法の豊富な内部的特徴を明らかにするとともに,オンライン地図と軌跡予測をより緊密に統合する方法について述べる。
これにより、内部のBEV機能に直接アクセスすると、推論速度が最大73%速くなり、実際のnuScenesデータセット上では最大29%の正確な予測が得られます。
論文 参考訳(メタデータ) (2024-07-09T08:59:27Z) - SemVecNet: Generalizable Vector Map Generation for Arbitrary Sensor Configurations [3.8472678261304587]
センサ構成への一般化を改善したベクトルマップ生成のためのモジュールパイプラインを提案する。
センサ構成に頑健なBEVセマンティックマップを採用することにより,提案手法は一般化性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-04-30T23:45:16Z) - U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based Relocalization [81.76044207714637]
GPS受信が不十分な場合やセンサベースのローカライゼーションが失敗する場合、インテリジェントな車両には再ローカライゼーションが不可欠である。
Bird's-Eye-View (BEV)セグメンテーションの最近の進歩は、局所的な景観の正確な推定を可能にする。
本稿では,U-NetにインスパイアされたアーキテクチャであるU-BEVについて述べる。
論文 参考訳(メタデータ) (2023-10-20T18:57:38Z) - Online Map Vectorization for Autonomous Driving: A Rasterization
Perspective [58.71769343511168]
より優れた感度を有し,現実の自律運転シナリオに適した,新化に基づく評価指標を提案する。
また、精度の高い出力に微分可能化を適用し、HDマップの幾何学的監視を行う新しいフレームワークであるMapVR(Map Vectorization via Rasterization)を提案する。
論文 参考訳(メタデータ) (2023-06-18T08:51:14Z) - NeMO: Neural Map Growing System for Spatiotemporal Fusion in
Bird's-Eye-View and BDD-Map Benchmark [9.430779563669908]
視覚中心のBird's-Eye View表現は自律運転システムに不可欠である。
この研究は、読みやすく、説明可能なビッグマップを利用してローカルマップを生成するための、NeMOという新しいパラダイムを概説する。
すべてのBEVグリッドの特徴分布が同じパターンに従うと仮定して、すべてのグリッドに対して共有重み付きニューラルネットワークを採用して、ビッグマップを更新する。
論文 参考訳(メタデータ) (2023-06-07T15:46:15Z) - ViT-BEVSeg: A Hierarchical Transformer Network for Monocular
Birds-Eye-View Segmentation [2.70519393940262]
本研究では,バードアイビュー (BEV) マップを生成するために,視覚変換器 (ViT) をバックボーンアーキテクチャとして用いることを評価する。
我々のネットワークアーキテクチャであるViT-BEVSegは、入力画像のマルチスケール表現を生成するために標準視覚変換器を使用している。
我々は、最先端のアプローチと比較してかなり改善されたnuScenesデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-05-31T10:18:36Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。