論文の概要: DiffSemanticFusion: Semantic Raster BEV Fusion for Autonomous Driving via Online HD Map Diffusion
- arxiv url: http://arxiv.org/abs/2508.01778v1
- Date: Sun, 03 Aug 2025 14:32:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.058115
- Title: DiffSemanticFusion: Semantic Raster BEV Fusion for Autonomous Driving via Online HD Map Diffusion
- Title(参考訳): DiffSemanticFusion:オンラインHDマップ拡散による自動運転のためのセマンティックラスターBEVフュージョン
- Authors: Zhigang Sun, Yiru Wang, Anqing Jiang, Shuo Wang, Yu Gao, Yuwen Heng, Shouyi Zhang, An He, Hao Jiang, Jinhao Chai, Zichong Gu, Wang Jijun, Shichen Tang, Lavdim Halilaj, Juergen Luettin, Hao Sun,
- Abstract要約: 軌道予測と計画のための融合フレームワークであるDiffSemanticFusionを提案する。
提案手法は, マップ拡散モジュールにより拡張された意味融合型BEV空間に起因する。
実世界の自動運転ベンチマークであるnuScenesとNAVSIMの実験では、最先端のいくつかの手法よりも性能が向上した。
- 参考スコア(独自算出の注目度): 14.872416661028144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous driving requires accurate scene understanding, including road geometry, traffic agents, and their semantic relationships. In online HD map generation scenarios, raster-based representations are well-suited to vision models but lack geometric precision, while graph-based representations retain structural detail but become unstable without precise maps. To harness the complementary strengths of both, we propose DiffSemanticFusion -- a fusion framework for multimodal trajectory prediction and planning. Our approach reasons over a semantic raster-fused BEV space, enhanced by a map diffusion module that improves both the stability and expressiveness of online HD map representations. We validate our framework on two downstream tasks: trajectory prediction and planning-oriented end-to-end autonomous driving. Experiments on real-world autonomous driving benchmarks, nuScenes and NAVSIM, demonstrate improved performance over several state-of-the-art methods. For the prediction task on nuScenes, we integrate DiffSemanticFusion with the online HD map informed QCNet, achieving a 5.1\% performance improvement. For end-to-end autonomous driving in NAVSIM, DiffSemanticFusion achieves state-of-the-art results, with a 15\% performance gain in NavHard scenarios. In addition, extensive ablation and sensitivity studies show that our map diffusion module can be seamlessly integrated into other vector-based approaches to enhance performance. All artifacts are available at https://github.com/SunZhigang7/DiffSemanticFusion.
- Abstract(参考訳): 自律運転には、道路形状、交通エージェント、およびそれらの意味的関係を含む正確なシーン理解が必要である。
オンラインHDマップ生成シナリオでは、ラスタベースの表現は視覚モデルに適しているが、幾何学的精度は欠如している。
DiffSemanticFusion(DiffSemanticFusion)はマルチモーダルな軌道予測と計画のための融合フレームワークである。
提案手法は,オンラインHDマップ表現の安定性と表現性を両立させるマップ拡散モジュールによって拡張されたセマンティックラスター融合型BEV空間に対するものである。
我々は、軌道予測と計画指向のエンドツーエンド自動運転という2つの下流タスクにおいて、我々のフレームワークを検証する。
実世界の自動運転ベンチマークであるnuScenesとNAVSIMの実験では、最先端のいくつかの手法よりも性能が向上した。
nuScenesの予測タスクでは、DiffSemanticFusionをオンラインHDマップのQCNetと統合し、5.1\%の性能向上を実現している。
NAVSIMにおけるエンドツーエンドの自動運転のために、DiffSemanticFusionは最先端の結果を達成する。
さらに、広範囲にわたるアブレーションと感度の研究により、我々の地図拡散モジュールは他のベクトルベースアプローチとシームレスに統合して性能を向上させることができることを示した。
すべてのアーティファクトはhttps://github.com/SunZhigang7/DiffSemanticFusionで入手できる。
関連論文リスト
- RTMap: Real-Time Recursive Mapping with Change Detection and Localization [8.343318095882232]
RTMapは、自己進化メモリとして、マルチトラバースHDマップを継続的にクラウドソーシングする。
オンボードエージェントでは、RTMapはエンドツーエンドの方法で、同時に3つのコア課題に対処する。
いくつかの公道自動運転データセットの実験は、事前支援された地図の品質と位置決め精度の両方において、我々の確固たる性能を実証している。
論文 参考訳(メタデータ) (2025-07-01T17:32:30Z) - MapFM: Foundation Model-Driven HD Mapping with Multi-Task Contextual Learning [0.0]
自律運転においては、鳥眼ビュー(BEV)におけるHDマップと意味マップは正確な位置決め、計画、意思決定に不可欠である。
本稿では,オンラインベクトル化HDマップ生成のためのMapFMと呼ばれる拡張エンド・ツー・エンドモデルを提案する。
論文 参考訳(メタデータ) (2025-06-18T09:42:30Z) - Neural Semantic Map-Learning for Autonomous Vehicles [85.8425492858912]
本稿では,道路環境のコヒーレントな地図を作成するために,車両群から収集した局所部分写像を中心インスタンスに融合するマッピングシステムを提案する。
本手法は,シーン特異的なニューラルサイン距離場を用いて,雑音と不完全局所部分写像を併用する。
我々は,記憶効率の高いスパース機能グリッドを活用して大規模にスケールし,シーン再構築における不確実性をモデル化するための信頼スコアを導入する。
論文 参考訳(メタデータ) (2024-10-10T10:10:03Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - GenMapping: Unleashing the Potential of Inverse Perspective Mapping for Robust Online HD Map Construction [20.1127163541618]
我々はGenMappingというユニバーサルマップ生成フレームワークを設計した。
このフレームワークは、主および二重補助枝を含む三進的なシナジーアーキテクチャで構築されている。
実験結果の網羅的な配列から,提案手法はセマンティックマッピングとベクトル化マッピングの両方において最先端の手法を超越し,高速な推論速度を維持した。
論文 参考訳(メタデータ) (2024-09-13T10:15:28Z) - MFTraj: Map-Free, Behavior-Driven Trajectory Prediction for Autonomous Driving [15.965681867350215]
本稿では,自律走行に適した軌道予測モデルを提案する。
歴史的軌跡データと新しい幾何学的動的グラフに基づく行動認識モジュールを組み合わせる。
計算効率とパラメータオーバーヘッドの低減を実現している。
論文 参考訳(メタデータ) (2024-05-02T13:13:52Z) - Video Killed the HD-Map: Predicting Multi-Agent Behavior Directly From
Aerial Images [14.689298253430568]
本稿では,最小限のアノテーションを必要とする航空画像ベースマップ(AIM)の表現を提案し,歩行者や車両などの交通機関に道路状況情報を提供する。
以上の結果から,特にAIM表現を用いた歩行者の競合的マルチエージェント軌道予測性能が示された。
論文 参考訳(メタデータ) (2023-05-19T17:48:01Z) - GoRela: Go Relative for Viewpoint-Invariant Motion Forecasting [121.42898228997538]
精度や一般化を犠牲にすることなく、全てのエージェントとマップに対して効率的な共有符号化を提案する。
不均一空間グラフにおけるエージェントとマップ要素間の幾何学的関係を表現するために、ペアワイズ相対的な位置符号化を利用する。
我々のデコーダは視点非依存であり、レーングラフ上でエージェント目標を予測し、多様かつコンテキスト対応のマルチモーダル予測を可能にする。
論文 参考訳(メタデータ) (2022-11-04T16:10:50Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z) - Learning Lane Graph Representations for Motion Forecasting [92.88572392790623]
生の地図データからレーングラフを構築し,地図構造を保存する。
我々は,アクター・トゥ・レーン,レーン・トゥ・レーン,レーン・トゥ・アクター,アクター・トゥ・アクターの4種類のインタラクションからなる融合ネットワークを利用する。
提案手法は,大規模Argoverse運動予測ベンチマークにおいて,最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-07-27T17:59:49Z) - VectorNet: Encoding HD Maps and Agent Dynamics from Vectorized
Representation [74.56282712099274]
本稿では,ベクトルで表される個々の道路成分の空間的局所性を利用する階層型グラフニューラルネットワークであるVectorNetを紹介する。
ベクトル化高定義(HD)マップとエージェントトラジェクトリの操作により、ロッキーなレンダリングや計算集約的なConvNetエンコーディングのステップを避けることができる。
我々は、社内行動予測ベンチマークと最近リリースされたArgoverse予測データセットでVectorNetを評価した。
論文 参考訳(メタデータ) (2020-05-08T19:07:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。