論文の概要: What Really Matters for Robust Multi-Sensor HD Map Construction?
- arxiv url: http://arxiv.org/abs/2507.01484v1
- Date: Wed, 02 Jul 2025 08:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.111865
- Title: What Really Matters for Robust Multi-Sensor HD Map Construction?
- Title(参考訳): 頑丈なマルチセンサHDマップ構築には何が重要か?
- Authors: Xiaoshuai Hao, Yuting Zhao, Yuheng Ji, Luanyuan Dai, Peng Hao, Dingzhe Li, Shuai Cheng, Rong Yin,
- Abstract要約: 高精度かつ包括的な静的環境情報の提供には,HDマップ構築法が不可欠である。
既存のアプローチは主にモデルの精度の向上に重点を置いており、知覚モデルの堅牢性を無視していることが多い。
高精度を維持しつつ,HDマップ構築のためのマルチモーダル融合法のロバスト性を高める戦略を提案する。
- 参考スコア(独自算出の注目度): 9.108124985480046
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: High-definition (HD) map construction methods are crucial for providing precise and comprehensive static environmental information, which is essential for autonomous driving systems. While Camera-LiDAR fusion techniques have shown promising results by integrating data from both modalities, existing approaches primarily focus on improving model accuracy and often neglect the robustness of perception models, which is a critical aspect for real-world applications. In this paper, we explore strategies to enhance the robustness of multi-modal fusion methods for HD map construction while maintaining high accuracy. We propose three key components: data augmentation, a novel multi-modal fusion module, and a modality dropout training strategy. These components are evaluated on a challenging dataset containing 10 days of NuScenes data. Our experimental results demonstrate that our proposed methods significantly enhance the robustness of baseline methods. Furthermore, our approach achieves state-of-the-art performance on the clean validation set of the NuScenes dataset. Our findings provide valuable insights for developing more robust and reliable HD map construction models, advancing their applicability in real-world autonomous driving scenarios. Project website: https://robomap-123.github.io.
- Abstract(参考訳): 高精細(HD)マップ構築法は,自律運転システムに不可欠な,精密かつ包括的な静的環境情報の提供に不可欠である。
カメラとLiDARの融合技術は、両方のモダリティからのデータを統合することで有望な結果を示してきたが、既存のアプローチは主にモデルの精度を改善し、実世界のアプリケーションにとって重要な側面である知覚モデルの堅牢性を無視している。
本稿では,HDマップ構築におけるマルチモーダル融合法のロバスト性向上を図る。
本稿では,データ拡張,新しいマルチモーダル融合モジュール,モダリティ・ドロップアウト・トレーニング戦略の3つの重要なコンポーネントを提案する。
これらのコンポーネントは、10日間のNuScenesデータを含む挑戦的なデータセットで評価される。
実験の結果,提案手法はベースライン手法のロバスト性を大幅に向上させることがわかった。
さらに,本手法は,NuScenesデータセットのクリーンな検証セット上での最先端性能を実現する。
我々の研究は、より堅牢で信頼性の高いHDマップ構築モデルを開発する上で貴重な洞察を与え、現実の自動運転シナリオにおけるそれらの適用性を高めた。
プロジェクトウェブサイト: https://robomap-123.github.io
関連論文リスト
- TUM2TWIN: Introducing the Large-Scale Multimodal Urban Digital Twin Benchmark Dataset [90.97440987655084]
都市デジタルツインズ(UDT)は、都市管理と多様なソースからの複雑な異種データの統合に欠かせないものとなっている。
これらの課題に対処するために、最初の総合的マルチモーダルなUrban Digital TwinベンチマークデータセットTUM2TWINを紹介する。
このデータセットには、地理的にセマンティックに整合した3Dモデルとネットワーク、およびさまざまな地球、モバイル、航空、衛星観測結果、約10,000ドル以上のデータサブセット、そして現在767GBのデータが含まれている。
論文 参考訳(メタデータ) (2025-05-12T09:48:32Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - UdeerLID+: Integrating LiDAR, Image, and Relative Depth with Semi-Supervised [12.440461420762265]
道路分割は自動運転システムにとって重要な課題である。
我々の研究は、LiDARポイントクラウドデータ、ビジュアルイメージ、および相対深度マップを統合する革新的なアプローチを導入している。
主な課題の1つは、大規模で正確にラベル付けされたデータセットの不足である。
論文 参考訳(メタデータ) (2024-09-10T03:57:30Z) - Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは、フィードバック駆動の実験プラットフォームを提供し、コスト効率とデータとモデルの両方のガイド付き洗練を可能にする。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - FSD-BEV: Foreground Self-Distillation for Multi-view 3D Object Detection [33.225938984092274]
本稿では,分散の相違を効果的に回避するFSD方式を提案する。
また2つのポイントクラウド拡張(PCI)戦略を設計し、ポイントクラウドの幅を補う。
マルチスケール・フォアグラウンド・エンハンスメント(MSFE)モジュールを開発し,マルチスケール・フォアグラウンドの特徴を抽出・融合する。
論文 参考訳(メタデータ) (2024-07-14T09:39:44Z) - RU-AI: A Large Multimodal Dataset for Machine-Generated Content Detection [11.265512559447986]
本稿では,テキスト,画像,音声中の機械生成コンテンツを堅牢かつ効果的に検出するための大規模マルチモーダルデータセットであるRU-AIを紹介する。
私たちのデータセットは、Flickr8K、COCO、Places205という3つの大きな公開データセットに基づいて構築されています。
その結果,既存のモデルでは,データセットの正確かつ堅牢な検出に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-06-07T12:58:14Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - Distributed Dynamic Map Fusion via Federated Learning for Intelligent
Networked Vehicles [9.748996198083425]
本稿では,高い地図品質を実現するために,連合学習に基づく動的地図融合フレームワークを提案する。
提案されたフレームワークはcarla(carla)シミュレーションプラットフォームに実装されている。
論文 参考訳(メタデータ) (2021-03-05T16:28:46Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。