論文の概要: DiffVL: Diffusion-Based Visual Localization on 2D Maps via BEV-Conditioned GPS Denoising
- arxiv url: http://arxiv.org/abs/2509.14565v1
- Date: Thu, 18 Sep 2025 02:57:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.03843
- Title: DiffVL: Diffusion-Based Visual Localization on 2D Maps via BEV-Conditioned GPS Denoising
- Title(参考訳): DiffVL:BEVによるGPSによる2Dマップ上の拡散に基づく視覚的位置決め
- Authors: Li Gao, Hongyang Sun, Liu Liu, Yunhao Li, Yang Cai,
- Abstract要約: DiffVLは,拡散モデルを用いたGPSデノナイズタスクとして視覚的ローカライゼーションを再構成する最初のフレームワークである。
我々の研究は、ノイズの多いGPSを生成先行として扱うことにより、DiffVLがスケーラブルなローカライゼーションを可能にすることを証明している。
- 参考スコア(独自算出の注目度): 23.54747289630525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate visual localization is crucial for autonomous driving, yet existing methods face a fundamental dilemma: While high-definition (HD) maps provide high-precision localization references, their costly construction and maintenance hinder scalability, which drives research toward standard-definition (SD) maps like OpenStreetMap. Current SD-map-based approaches primarily focus on Bird's-Eye View (BEV) matching between images and maps, overlooking a ubiquitous signal-noisy GPS. Although GPS is readily available, it suffers from multipath errors in urban environments. We propose DiffVL, the first framework to reformulate visual localization as a GPS denoising task using diffusion models. Our key insight is that noisy GPS trajectory, when conditioned on visual BEV features and SD maps, implicitly encode the true pose distribution, which can be recovered through iterative diffusion refinement. DiffVL, unlike prior BEV-matching methods (e.g., OrienterNet) or transformer-based registration approaches, learns to reverse GPS noise perturbations by jointly modeling GPS, SD map, and visual signals, achieving sub-meter accuracy without relying on HD maps. Experiments on multiple datasets demonstrate that our method achieves state-of-the-art accuracy compared to BEV-matching baselines. Crucially, our work proves that diffusion models can enable scalable localization by treating noisy GPS as a generative prior-making a paradigm shift from traditional matching-based methods.
- Abstract(参考訳): 高精細度(HD)マップは高精度なローカライゼーション参照を提供するが、そのコストの高い構築とメンテナンスはスケーラビリティを阻害し、OpenStreetMapのような標準精細度(SD)マップの研究を促進する。
現在のSDマップベースのアプローチは主に、ユビキタスな信号ノイズGPSを見渡して、画像とマップのマッチングを行うBird's-Eye View(BEV)に焦点を当てている。
GPSは容易に利用できるが、都市環境のマルチパスエラーに悩まされている。
DiffVLは,拡散モデルを用いたGPSデノナイズタスクとして視覚的ローカライゼーションを再構成する最初のフレームワークである。
我々の重要な洞察は、ノイズの多いGPS軌道は、視覚的BEV特徴とSDマップに条件付けされた場合、暗黙的に真のポーズ分布を符号化し、反復的な拡散補正によって回復できるということである。
DiffVLは、従来のBEVマッチング手法(OrienterNetなど)やトランスフォーマーベースの登録手法とは異なり、GPS、SDマップ、視覚信号を共同でモデル化し、HDマップに頼ることなくサブメーター精度を達成することで、GPSノイズの摂動を逆転させることを学ぶ。
複数のデータセットに対する実験により,BEVマッチングベースラインと比較して最先端の精度が得られた。
我々の研究は、ノイズの多いGPSを従来のマッチング方式からパラダイムシフトを生成的優先として扱うことにより、拡散モデルがスケーラブルなローカライゼーションを可能にすることを証明している。
関連論文リスト
- SegLocNet: Multimodal Localization Network for Autonomous Driving via Bird's-Eye-View Segmentation [0.0]
SegLocNetはセマンティックセグメンテーションを用いて正確なローカライゼーションを実現するマルチモーダルフリーなローカライゼーションネットワークである。
本手法は,都市環境におけるエゴポーズを,一般化に頼ることなく正確に推定することができる。
私たちのコードと事前訓練されたモデルは公開されます。
論文 参考訳(メタデータ) (2025-02-27T13:34:55Z) - TopoSD: Topology-Enhanced Lane Segment Perception with SDMap Prior [70.84644266024571]
我々は、標準定義地図(SDMaps)を見るために知覚モデルを訓練することを提案する。
我々はSDMap要素をニューラル空間マップ表現やインスタンストークンにエンコードし、先行情報のような補完的な特徴を組み込む。
レーンセグメント表現フレームワークに基づいて、モデルはレーン、中心線、およびそれらのトポロジを同時に予測する。
論文 参考訳(メタデータ) (2024-11-22T06:13:42Z) - MapLocNet: Coarse-to-Fine Feature Registration for Visual Re-Localization in Navigation Maps [8.373285397029884]
伝統的なローカライゼーションアプローチは、正確に注釈付けされたランドマークからなる高定義(HD)マップに依存している。
本稿では,画像登録にインスパイアされたトランスフォーマーを用いたニューラルリローカライズ手法を提案する。
提案手法は, nuScenes と Argoverse の両方のデータセット上で, 現在最先端の OrienterNet を著しく上回っている。
論文 参考訳(メタデータ) (2024-07-11T14:51:18Z) - Augmenting Lane Perception and Topology Understanding with Standard
Definition Navigation Maps [51.24861159115138]
Standard Definition (SD) マップは、より安価で、世界中でカバーでき、スケーラブルな代替手段を提供する。
本稿では,オンライン地図予測にSDマップを統合する新しいフレームワークを提案し,Transformer を用いたエンコーダ SD Map Representations を提案する。
この拡張は、現在の最先端のオンラインマップ予測手法におけるレーン検出とトポロジー予測を一貫して(最大60%まで)大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-07T15:42:22Z) - U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based Relocalization [81.76044207714637]
GPS受信が不十分な場合やセンサベースのローカライゼーションが失敗する場合、インテリジェントな車両には再ローカライゼーションが不可欠である。
Bird's-Eye-View (BEV)セグメンテーションの最近の進歩は、局所的な景観の正確な推定を可能にする。
本稿では,U-NetにインスパイアされたアーキテクチャであるU-BEVについて述べる。
論文 参考訳(メタデータ) (2023-10-20T18:57:38Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - A Survey on Visual Map Localization Using LiDARs and Cameras [0.0]
視覚マップのローカライゼーションを2段階プロセスとして定義する。
位置認識の段階では、視覚センサ出力とジオタグ付き地図領域の集合とを比較して、地図内の車両の初期位置を決定する。
地図距離定位の段階では、車両が地図を横切りながら追跡され、視界センサの出力と現在の地図の面積を連続的に調整する。
論文 参考訳(メタデータ) (2022-08-05T20:11:18Z) - Coarse-to-fine Semantic Localization with HD Map for Autonomous Driving
in Structural Scenes [1.1024591739346292]
カメラを主センサとする自動運転のためのHDマップを用いたコスト効率の高い車両位置決めシステムを提案する。
視覚的セマンティクスをHDマップのランドマークにマップするデータアソシエーション問題として視覚に基づくローカライゼーションを定式化する。
本手法を2つのデータセット上で評価し,提案手法が異なる運転シナリオにおいて有望なローカライゼーション結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-07-06T11:58:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。