論文の概要: S-BEVLoc: BEV-based Self-supervised Framework for Large-scale LiDAR Global Localization
- arxiv url: http://arxiv.org/abs/2509.09110v1
- Date: Thu, 11 Sep 2025 02:48:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.206233
- Title: S-BEVLoc: BEV-based Self-supervised Framework for Large-scale LiDAR Global Localization
- Title(参考訳): S-BEVLoc:大規模LiDARグローバルローカライゼーションのためのBEVベースの自己組織化フレームワーク
- Authors: Chenghao Zhang, Lun Luo, Si-Yuan Cao, Xiaokai Bai, Yuncheng Jin, Zhu Yu, Beinan Yu, Yisen Wang, Hui-Liang Shen,
- Abstract要約: S-BEVLocは、LiDARグローバルローカライゼーションのための鳥眼ビュー(BEV)に基づく新しいフレームワークである。
我々は、キーポイント中心のBEVパッチ間の既知の地理的距離を利用して、単一のBEV画像からトレーニング三重項を構築する。
本研究では,S-BEVLocが位置認識,ループ閉鎖,グローバルなローカライゼーションタスクにおいて,最先端の性能を達成することを示す。
- 参考スコア(独自算出の注目度): 34.79060534627474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LiDAR-based global localization is an essential component of simultaneous localization and mapping (SLAM), which helps loop closure and re-localization. Current approaches rely on ground-truth poses obtained from GPS or SLAM odometry to supervise network training. Despite the great success of these supervised approaches, substantial cost and effort are required for high-precision ground-truth pose acquisition. In this work, we propose S-BEVLoc, a novel self-supervised framework based on bird's-eye view (BEV) for LiDAR global localization, which eliminates the need for ground-truth poses and is highly scalable. We construct training triplets from single BEV images by leveraging the known geographic distances between keypoint-centered BEV patches. Convolutional neural network (CNN) is used to extract local features, and NetVLAD is employed to aggregate global descriptors. Moreover, we introduce SoftCos loss to enhance learning from the generated triplets. Experimental results on the large-scale KITTI and NCLT datasets show that S-BEVLoc achieves state-of-the-art performance in place recognition, loop closure, and global localization tasks, while offering scalability that would require extra effort for supervised approaches.
- Abstract(参考訳): LiDARベースのグローバルローカライゼーションは、ループのクロージャと再ローカライゼーションを支援する、同時ローカライゼーションとマッピング(SLAM)の重要なコンポーネントである。
現在のアプローチは、ネットワークトレーニングを監督するためにGPSやSLAMオドメトリーから得られる地道的なポーズに依存している。
これらの監督的アプローチの大きな成功にもかかわらず、高精度な地道的ポーズ獲得には相当なコストと努力が必要である。
本研究では,LiDARグローバルローカライゼーションのための鳥眼ビュー(BEV)に基づく,新たな自己教師型フレームワークであるS-BEVLocを提案する。
我々は、キーポイント中心のBEVパッチ間の既知の地理的距離を利用して、単一のBEV画像からトレーニング三重項を構築する。
畳み込みニューラルネットワーク(CNN)は局所的な特徴を抽出するために使用され、NetVLADはグローバルな記述子を集約するために使用される。
さらに、生成した三つ子からの学習を強化するために、SoftCosの損失を導入する。
大規模なKITTIとNCLTデータセットの実験結果から、S-BEVLocは位置認識、ループクロージャ、グローバルローカライゼーションタスクにおける最先端のパフォーマンスを実現し、教師付きアプローチに余分な労力を要するスケーラビリティを提供する。
関連論文リスト
- TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - VVLoc: Prior-free 3-DoF Vehicle Visual Localization [6.151313455860856]
マルチカメラシステムを用いたトポロジカルおよび計量車両のローカライゼーションを同時に達成するために,単一ニューラルネットワークを用いた統一パイプラインを提案する。
VVLocはまず、視覚的観察間の地理的近さを評価し、マッチング戦略を用いて相対的な距離ポーズを推定すると同時に、信頼度も提供する。
VVLocの評価は、公開されているデータセットだけでなく、より困難な自己コンパイルデータセット上でも行います。
論文 参考訳(メタデータ) (2026-01-31T16:37:30Z) - Generative MIMO Beam Map Construction for Location Recovery and Beam Tracking [67.65578956523403]
本稿では,スパースチャネル状態情報(CSI)から位置ラベルを直接復元する生成フレームワークを提案する。
生のCSIを直接格納する代わりに、小型の低次元無線地図の埋め込みを学び、生成モデルを利用して高次元CSIを再構築する。
数値実験により,NLOSシナリオにおける局所化精度が30%以上向上し,20%のキャパシティゲインが得られることが示された。
論文 参考訳(メタデータ) (2025-11-21T07:25:49Z) - BEVDiffLoc: End-to-End LiDAR Global Localization in BEV View based on Diffusion Model [8.720833232645155]
Bird's-Eye-View (BEV) 画像は、自動運転において最も広く採用されているデータ表現の1つである。
ポーズの条件生成としてLiDAR局所化を定式化する新しいフレームワークであるBEVDiffLocを提案する。
論文 参考訳(メタデータ) (2025-03-14T13:17:43Z) - Unbiased Region-Language Alignment for Open-Vocabulary Dense Prediction [80.67150791183126]
事前訓練された視覚言語モデル(VLM)は、印象的なゼロショット認識能力を示したが、それでも高密度予測タスクでは性能が劣っている。
提案するDenseVLMは,非バイアスの領域言語アライメントを,強力な事前学習型VLM表現から学習するためのフレームワークである。
DenseVLMは、オープン語彙オブジェクト検出および画像分割法において、元のVLMを直接置き換えることができることを示す。
論文 参考訳(メタデータ) (2024-12-09T06:34:23Z) - GLRT-Based Metric Learning for Remote Sensing Object Retrieval [19.210692452537007]
既存のCBRSOR法は、訓練段階と試験段階の両方において、グローバルな統計情報の利用を無視する。
ナイマン・ピアソンの定理にインスパイアされた我々は、一般化された確率比テストベースメトリックラーニング(GLRTML)アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-08T07:53:30Z) - RING#: PR-by-PE Global Localization with Roto-translation Equivariant Gram Learning [20.688641105430467]
GPS信号が信頼できない場合、グローバルなローカライゼーションは自動運転やロボティクスの応用において不可欠である。
ほとんどのアプローチは、逐次位置認識(PR)とポーズ推定(PE)により、グローバルなローカライゼーションを実現する。
ポーズ推定から直接導出することで、別の場所認識の必要性を回避できる新しいパラダイムであるPR-by-PEローカライゼーションを導入する。
本稿では,鳥眼視(BEV)空間で動作する終端PR-by-PEローカライゼーションネットワークであるRING#を提案する。
論文 参考訳(メタデータ) (2024-08-30T18:42:53Z) - Locally Estimated Global Perturbations are Better than Local Perturbations for Federated Sharpness-aware Minimization [81.32266996009575]
フェデレートラーニング(FL)では、クライアント間の複数ステップの更新とデータの均一性が、よりシャープなミニマによるロスランドスケープにつながることが多い。
クライアント側におけるグローバルな摂動方向を局所的に推定する新しいアルゴリズムであるFedLESAMを提案する。
論文 参考訳(メタデータ) (2024-05-29T08:46:21Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Exploiting CLIP for Zero-shot HOI Detection Requires Knowledge
Distillation at Multiple Levels [52.50670006414656]
大規模事前学習型視覚言語モデルであるCLIPを,多段階の知識蒸留に利用した。
私たちのモデルをトレーニングするために、CLIPを使用して、グローバルイメージとローカルユニオン領域の両方のHOIスコアを生成する。
このモデルは、完全な教師付きおよび弱い教師付き手法に匹敵する強力な性能を達成する。
論文 参考訳(メタデータ) (2023-09-10T16:27:54Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z) - SphereVLAD++: Attention-based and Signal-enhanced Viewpoint Invariant
Descriptor [6.326554177747699]
SphereVLAD++ は注目度が高められた視点不変位置認識手法である。
SphereVLAD++は、小さな視点や完全に逆の視点差の下で、最先端の3D位置認識手法をすべて上回ることを示す。
論文 参考訳(メタデータ) (2022-07-06T20:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。