論文の概要: TS-CGNet: Temporal-Spatial Fusion Meets Centerline-Guided Diffusion for BEV Mapping
- arxiv url: http://arxiv.org/abs/2503.02578v1
- Date: Tue, 04 Mar 2025 13:00:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:13:48.800629
- Title: TS-CGNet: Temporal-Spatial Fusion Meets Centerline-Guided Diffusion for BEV Mapping
- Title(参考訳): TS-CGNet: 中央誘導拡散とBEVマッピング
- Authors: Xinying Hong, Siyu Li, Kang Zeng, Hao Shi, Bomin Peng, Kailun Yang, Zhiyong Li,
- Abstract要約: 本稿では,中央誘導拡散を伴う時間-空間融合を利用したTS-CGNetを提案する。
このフレームワークは、既存のネットワークに統合してBEVマップを構築するように設計されている。
- 参考スコア(独自算出の注目度): 14.11655533977291
- License:
- Abstract: Bird's Eye View (BEV) perception technology is crucial for autonomous driving, as it generates top-down 2D maps for environment perception, navigation, and decision-making. Nevertheless, the majority of current BEV map generation studies focusing on visual map generation lack depth-aware reasoning capabilities. They exhibit limited efficacy in managing occlusions and handling complex environments, with a notable decline in perceptual performance under adverse weather conditions or low-light scenarios. Therefore, this paper proposes TS-CGNet, which leverages Temporal-Spatial fusion with Centerline-Guided diffusion. This visual framework, grounded in prior knowledge, is designed for integration into any existing network for building BEV maps. Specifically, this framework is decoupled into three parts: Local mapping system involves the initial generation of semantic maps using purely visual information; The Temporal-Spatial Aligner Module (TSAM) integrates historical information into mapping generation by applying transformation matrices; The Centerline-Guided Diffusion Model (CGDM) is a prediction module based on the diffusion model. CGDM incorporates centerline information through spatial-attention mechanisms to enhance semantic segmentation reconstruction. We construct BEV semantic segmentation maps by our methods on the public nuScenes and the robustness benchmarks under various corruptions. Our method improves 1.90%, 1.73%, and 2.87% for perceived ranges of 60x30m, 120x60m, and 240x60m in the task of BEV HD mapping. TS-CGNet attains an improvement of 1.92% for perceived ranges of 100x100m in the task of BEV semantic mapping. Moreover, TS-CGNet achieves an average improvement of 2.92% in detection accuracy under varying weather conditions and sensor interferences in the perception range of 240x60m. The source code will be publicly available at https://github.com/krabs-H/TS-CGNet.
- Abstract(参考訳): 環境認識、ナビゲーション、意思決定のためのトップダウンの2Dマップを生成するため、Bird’s Eye View (BEV)知覚技術は自動運転に不可欠である。
しかしながら、現在のBEVマップ生成研究の大半は、ビジュアルマップ生成に焦点を当てており、深度を考慮した推論能力は欠如している。
閉塞状態の管理や複雑な環境の処理には限定的な効果を示しており、悪天候や低照度シナリオ下での知覚能力は顕著に低下している。
そこで本研究では,中央誘導拡散を用いた時空間融合を利用したTS-CGNetを提案する。
このビジュアルフレームワークは、以前の知識に基づいており、BEVマップを構築するための既存のネットワークに統合するために設計されている。
具体的には, 局所マッピングシステムでは, 純粋視覚情報を用いたセマンティックマップの初期生成, 時間空間アリグナーモジュール(TSAM)では, 変換行列を適用した地図生成に履歴情報を統合, 中心線誘導拡散モデル(CGDM)は拡散モデルに基づく予測モジュールである。
CGDMは、意味的セグメンテーションの再構築を強化するために、空間的アテンション機構を通じて中心となる情報を組み込む。
BEVセマンティック・セマンティック・セマンティック・セマンティクス・マップを公開nuScenesとロバストネス・ベンチマークに基づいて構築する。
BEVHDマッピングのタスクにおいて,60x30m,120x60m,240x60mの知覚範囲に対して1.90%,1.73%,2.87%の改善を行った。
TS-CGNetは、BEVセマンティックマッピングのタスクにおいて、認識範囲100×100mに対して1.92%の改善を実現している。
さらに、TS-CGNetは、異なる気象条件下での検知精度が平均2.92%向上し、知覚範囲240x60mのセンサー干渉を達成している。
ソースコードはhttps://github.com/krabs-H/TS-CGNetで公開されている。
関連論文リスト
- TopoSD: Topology-Enhanced Lane Segment Perception with SDMap Prior [70.84644266024571]
我々は、標準定義地図(SDMaps)を見るために知覚モデルを訓練することを提案する。
我々はSDMap要素をニューラル空間マップ表現やインスタンストークンにエンコードし、先行情報のような補完的な特徴を組み込む。
レーンセグメント表現フレームワークに基づいて、モデルはレーン、中心線、およびそれらのトポロジを同時に予測する。
論文 参考訳(メタデータ) (2024-11-22T06:13:42Z) - Neural Semantic Map-Learning for Autonomous Vehicles [85.8425492858912]
本稿では,道路環境のコヒーレントな地図を作成するために,車両群から収集した局所部分写像を中心インスタンスに融合するマッピングシステムを提案する。
本手法は,シーン特異的なニューラルサイン距離場を用いて,雑音と不完全局所部分写像を併用する。
我々は,記憶効率の高いスパース機能グリッドを活用して大規模にスケールし,シーン再構築における不確実性をモデル化するための信頼スコアを導入する。
論文 参考訳(メタデータ) (2024-10-10T10:10:03Z) - GenMapping: Unleashing the Potential of Inverse Perspective Mapping for Robust Online HD Map Construction [20.1127163541618]
我々はGenMappingというユニバーサルマップ生成フレームワークを設計した。
このフレームワークは、主および二重補助枝を含む三進的なシナジーアーキテクチャで構築されている。
実験結果の網羅的な配列から,提案手法はセマンティックマッピングとベクトル化マッピングの両方において最先端の手法を超越し,高速な推論速度を維持した。
論文 参考訳(メタデータ) (2024-09-13T10:15:28Z) - Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data [3.1968751101341173]
トップダウンのBird's Eye View (BEV)マップは地上ロボットナビゲーションの一般的な表現である。
最近の手法では、ファーストパーソンビュー(FPV)画像からBEVマップを予測することが約束されているが、その一般化可能性は、現在の自動運転車ベースのデータセットによってキャプチャされた小さな領域に限られている。
2つの大規模クラウドソースマッピングプラットフォームを利用することで,よりスケーラブルなマップ予測手法が実現可能であることを示す。
論文 参考訳(メタデータ) (2024-07-11T17:57:22Z) - BLOS-BEV: Navigation Map Enhanced Lane Segmentation Network, Beyond Line of Sight [30.45553559416835]
我々は,視線を超越した正確な知覚のためにSDマップを組み込んだ新しいBEVセグメンテーションモデルBLOS-BEVを提案する。
我々のアプローチは一般的なBEVアーキテクチャに適用でき、SDマップから得られる情報を組み込むことで優れた結果を得ることができる。
論文 参考訳(メタデータ) (2024-07-11T14:15:48Z) - Accelerating Online Mapping and Behavior Prediction via Direct BEV Feature Attention [30.190497345299004]
本稿では,オンライン地図推定手法の豊富な内部的特徴を明らかにするとともに,オンライン地図と軌跡予測をより緊密に統合する方法について述べる。
これにより、内部のBEV機能に直接アクセスすると、推論速度が最大73%速くなり、実際のnuScenesデータセット上では最大29%の正確な予測が得られます。
論文 参考訳(メタデータ) (2024-07-09T08:59:27Z) - U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based Relocalization [81.76044207714637]
GPS受信が不十分な場合やセンサベースのローカライゼーションが失敗する場合、インテリジェントな車両には再ローカライゼーションが不可欠である。
Bird's-Eye-View (BEV)セグメンテーションの最近の進歩は、局所的な景観の正確な推定を可能にする。
本稿では,U-NetにインスパイアされたアーキテクチャであるU-BEVについて述べる。
論文 参考訳(メタデータ) (2023-10-20T18:57:38Z) - NeMO: Neural Map Growing System for Spatiotemporal Fusion in
Bird's-Eye-View and BDD-Map Benchmark [9.430779563669908]
視覚中心のBird's-Eye View表現は自律運転システムに不可欠である。
この研究は、読みやすく、説明可能なビッグマップを利用してローカルマップを生成するための、NeMOという新しいパラダイムを概説する。
すべてのBEVグリッドの特徴分布が同じパターンに従うと仮定して、すべてのグリッドに対して共有重み付きニューラルネットワークを採用して、ビッグマップを更新する。
論文 参考訳(メタデータ) (2023-06-07T15:46:15Z) - MetaBEV: Solving Sensor Failures for BEV Detection and Map Segmentation [104.12419434114365]
現実世界のアプリケーションでは、センサの破損や故障がパフォーマンスの低下につながります。
極端に現実世界の環境に対処するための,MetaBEVと呼ばれる堅牢なフレームワークを提案する。
MetaBEVは、完全なモダリティと腐敗したモダリティの両方に大きなマージンで、先行技術よりも優れています。
論文 参考訳(メタデータ) (2023-04-19T16:37:17Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。