Fugu-MT 論文翻訳(概要): SegLocNet: Multimodal Localization Network for Autonomous Driving via Bird's-Eye-View Segmentation

論文の概要: SegLocNet: Multimodal Localization Network for Autonomous Driving via Bird's-Eye-View Segmentation

arxiv url: http://arxiv.org/abs/2502.20077v1
Date: Thu, 27 Feb 2025 13:34:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-28 15:15:46.943407
Title: SegLocNet: Multimodal Localization Network for Autonomous Driving via Bird's-Eye-View Segmentation
Title（参考訳）: SegLocNet:Bird's-Eye-View Segmentationによる自律走行のためのマルチモーダルローカライゼーションネットワーク
Authors: Zijie Zhou, Zhangshuo Qi, Luqi Cheng, Guangming Xiong,
Abstract要約: SegLocNetはセマンティックセグメンテーションを用いて正確なローカライゼーションを実現するマルチモーダルフリーなローカライゼーションネットワークである。本手法は,都市環境におけるエゴポーズを,一般化に頼ることなく正確に推定することができる。私たちのコードと事前訓練されたモデルは公開されます。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Robust and accurate localization is critical for autonomous driving. Traditional GNSS-based localization methods suffer from signal occlusion and multipath effects in urban environments. Meanwhile, methods relying on high-definition (HD) maps are constrained by the high costs associated with the construction and maintenance of HD maps. Standard-definition (SD) maps-based methods, on the other hand, often exhibit unsatisfactory performance or poor generalization ability due to overfitting. To address these challenges, we propose SegLocNet, a multimodal GNSS-free localization network that achieves precise localization using bird's-eye-view (BEV) semantic segmentation. SegLocNet employs a BEV segmentation network to generate semantic maps from multiple sensor inputs, followed by an exhaustive matching process to estimate the vehicle's ego pose. This approach avoids the limitations of regression-based pose estimation and maintains high interpretability and generalization. By introducing a unified map representation, our method can be applied to both HD and SD maps without any modifications to the network architecture, thereby balancing localization accuracy and area coverage. Extensive experiments on the nuScenes and Argoverse datasets demonstrate that our method outperforms the current state-of-the-art methods, and that our method can accurately estimate the ego pose in urban environments without relying on GNSS, while maintaining strong generalization ability. Our code and pre-trained model will be released publicly.
Abstract（参考訳）: 自律走行には、ロバストで正確な位置決めが不可欠である。 GNSSに基づく従来のローカライゼーション手法は、都市環境における信号遮断とマルチパス効果に悩まされている。一方,HDマップの構築と維持に係わる高コストにより,HDマップに依存する手法が制約される。一方、標準定義 (SD) マップベースの手法は、過度な適合によって不満足な性能や一般化能力を示すことが多い。これらの課題に対処するために,鳥の目視(BEV)セマンティックセグメンテーションを用いた高精度なローカライゼーションを実現するマルチモーダルGNSSフリーなローカライゼーションネットワークであるSegLocNetを提案する。 SegLocNetは、BEVセグメンテーションネットワークを使用して、複数のセンサー入力からセマンティックマップを生成し、続いて、車両のエゴポーズを推定するための徹底的なマッチングプロセスを実行する。このアプローチは回帰に基づくポーズ推定の限界を回避し、高い解釈可能性と一般化を維持する。統合マップ表現を導入することにより,ネットワークアーキテクチャの変更を伴わずに,HDマップとSDマップの両方に適用し,ローカライゼーションの精度とエリアカバレッジのバランスをとることができる。 nuScenes と Argoverse データセットの大規模な実験により,提案手法は現在の最先端手法よりも優れており,GNSS を頼らずに都市環境におけるエゴのポーズを精度良く推定できることを示した。私たちのコードと事前訓練されたモデルは公開されます。

関連論文リスト

XGrid-Mapping: Explicit Implicit Hybrid Grid Submaps for Efficient Incremental Neural LiDAR Mapping [25.768483326085956]
ニューラルネットワークのLiDARマッピングのために,明示的かつ暗黙的な表現を利用するハイブリッドグリッドフレームワークを提案する。 VDB構造とサブマップベースの組織を結合することにより、このフレームワークは計算負荷を低減する。提案手法は,ボクセル誘導方式の効率限界を克服しつつ,優れたマッピング品質を実現する。
論文参考訳（メタデータ） (2025-12-24T06:08:50Z)
CSMapping: Scalable Crowdsourced Semantic Mapping and Topology Inference for Autonomous Driving [23.921417146230738]
CSMappingは正確なセマンティックマップとトポロジカル道路中心線を生成する。 nuScenes、Argoverse 2、および大規模プロプライエタリデータセットに関する実験は、最先端のセマンティクスとトポロジマッピングのパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-12-03T07:06:18Z)
Generative MIMO Beam Map Construction for Location Recovery and Beam Tracking [67.65578956523403]
本稿では,スパースチャネル状態情報(CSI)から位置ラベルを直接復元する生成フレームワークを提案する。生のCSIを直接格納する代わりに、小型の低次元無線地図の埋め込みを学び、生成モデルを利用して高次元CSIを再構築する。数値実験により,NLOSシナリオにおける局所化精度が30%以上向上し,20%のキャパシティゲインが得られることが示された。
論文参考訳（メタデータ） (2025-11-21T07:25:49Z)
Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。 Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文参考訳（メタデータ） (2025-10-27T03:52:45Z)
U-ViLAR: Uncertainty-Aware Visual Localization for Autonomous Driving via Differentiable Association and Registration [25.74646789843283]
U-ViLARは、新しい不確実性を認識した視覚的ローカライゼーションフレームワークである。ハイデフィニション(HD)マップやナビゲーションマップを使った適応的なローカライゼーションを可能にする。当社のモデルでは、大規模自動運転車両の厳格なテストが実施されている。
論文参考訳（メタデータ） (2025-07-06T18:40:42Z)
Coherent Online Road Topology Estimation and Reasoning with Standard-Definition Maps [26.036008442130587]
ほとんどの自動運転車はHD(High-Definition)マップの可用性に依存している。現在の研究は、搭載センサーからHDマップ要素を直接予測することで、この制約に対処することを目的としている。本稿では,道路境界だけでなく,レーンセグメントとその対応するトポロジを予測するためのコヒーレントなアプローチを提案する。
論文参考訳（メタデータ） (2025-07-02T06:26:17Z)
BEVDiffLoc: End-to-End LiDAR Global Localization in BEV View based on Diffusion Model [8.720833232645155]
Bird's-Eye-View (BEV) 画像は、自動運転において最も広く採用されているデータ表現の1つである。ポーズの条件生成としてLiDAR局所化を定式化する新しいフレームワークであるBEVDiffLocを提案する。
論文参考訳（メタデータ） (2025-03-14T13:17:43Z)
SF-Loc: A Visual Mapping and Geo-Localization System based on Sparse Visual Structure Frames [3.5047603107971397]
SF-Locは軽量なビジュアルマッピングとマップ支援型ローカライゼーションシステムである。マッピングフェーズでは,多センサ高密度バンドル調整(MS-DBA)を適用し,ジオレファレンスな視覚構造フレームを構築する。ローカライズフェーズでは、多フレーム情報と地図分布を完全に統合した粗大な視覚に基づくローカライズを行う。
論文参考訳（メタデータ） (2024-12-02T13:51:58Z)
TopoSD: Topology-Enhanced Lane Segment Perception with SDMap Prior [70.84644266024571]
我々は、標準定義地図(SDMaps)を見るために知覚モデルを訓練することを提案する。我々はSDMap要素をニューラル空間マップ表現やインスタンストークンにエンコードし、先行情報のような補完的な特徴を組み込む。レーンセグメント表現フレームワークに基づいて、モデルはレーン、中心線、およびそれらのトポロジを同時に予測する。
論文参考訳（メタデータ） (2024-11-22T06:13:42Z)
Neural Semantic Map-Learning for Autonomous Vehicles [85.8425492858912]
本稿では,道路環境のコヒーレントな地図を作成するために,車両群から収集した局所部分写像を中心インスタンスに融合するマッピングシステムを提案する。本手法は,シーン特異的なニューラルサイン距離場を用いて,雑音と不完全局所部分写像を併用する。我々は,記憶効率の高いスパース機能グリッドを活用して大規模にスケールし,シーン再構築における不確実性をモデル化するための信頼スコアを導入する。
論文参考訳（メタデータ） (2024-10-10T10:10:03Z)
MapLocNet: Coarse-to-Fine Feature Registration for Visual Re-Localization in Navigation Maps [8.373285397029884]
伝統的なローカライゼーションアプローチは、正確に注釈付けされたランドマークからなる高定義(HD)マップに依存している。本稿では,画像登録にインスパイアされたトランスフォーマーを用いたニューラルリローカライズ手法を提案する。提案手法は, nuScenes と Argoverse の両方のデータセット上で, 現在最先端の OrienterNet を著しく上回っている。
論文参考訳（メタデータ） (2024-07-11T14:51:18Z)
StreamMapNet: Streaming Mapping Network for Vectorized Online HD Map Construction [36.1596833523566]
本稿では,ビデオの時系列時間的モデリングに適応した新しいオンラインマッピングパイプラインであるStreamMapNetを紹介する。 StreamMapNetは、高安定性の大規模ローカルHDマップの構築を支援するマルチポイントアテンションと時間情報を利用する。
論文参考訳（メタデータ） (2023-08-24T05:22:43Z)
EgoVM: Achieving Precise Ego-Localization using Lightweight Vectorized Maps [9.450650025266379]
本稿では,従来の最先端手法に匹敵するローカライズ精度を実現するエンド・ツー・エンドのローカライズネットワークであるEgoVMを提案する。我々は、学習可能なセマンティック埋め込みを用いて、マップ要素のセマンティックタイプを符号化し、セマンティックセマンティックセグメンテーションでそれらを監督する。本研究では,頑健なヒストグラムに基づくポーズ解法を用いて,候補ポーズを徹底的に探索することで最適なポーズを推定する。
論文参考訳（メタデータ） (2023-07-18T06:07:25Z)
Adaptive Hierarchical SpatioTemporal Network for Traffic Forecasting [70.66710698485745]
本稿では,AHSTN(Adaptive Hierarchical SpatioTemporal Network)を提案する。 AHSTNは空間階層を利用し、マルチスケール空間相関をモデル化する。 2つの実世界のデータセットの実験により、AHSTNはいくつかの強いベースラインよりも優れたパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2023-06-15T14:50:27Z)
BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文参考訳（メタデータ） (2022-12-08T16:27:54Z)
Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文参考訳（メタデータ） (2022-11-15T13:52:41Z)
Robust Monocular Localization in Sparse HD Maps Leveraging Multi-Task Uncertainty Estimation [28.35592701148056]
スライドウインドウポーズグラフに基づく新しい単分子局在化手法を提案する。効率的なマルチタスク不確実性認識モジュールを提案する。我々の手法は、挑戦的な都市シナリオにおけるロバストで正確な6Dローカライズを可能にする。
論文参考訳（メタデータ） (2021-10-20T13:46:15Z)
Real-Time High-Performance Semantic Image Segmentation of Urban Street Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文参考訳（メタデータ） (2020-03-11T08:45:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。