Fugu-MT 論文翻訳(概要): S-BEVLoc: BEV-based Self-supervised Framework for Large-scale LiDAR Global Localization

論文の概要: S-BEVLoc: BEV-based Self-supervised Framework for Large-scale LiDAR Global Localization

arxiv url: http://arxiv.org/abs/2509.09110v1
Date: Thu, 11 Sep 2025 02:48:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-12 16:52:24.206233
Title: S-BEVLoc: BEV-based Self-supervised Framework for Large-scale LiDAR Global Localization
Title（参考訳）: S-BEVLoc:大規模LiDARグローバルローカライゼーションのためのBEVベースの自己組織化フレームワーク
Authors: Chenghao Zhang, Lun Luo, Si-Yuan Cao, Xiaokai Bai, Yuncheng Jin, Zhu Yu, Beinan Yu, Yisen Wang, Hui-Liang Shen,
Abstract要約: S-BEVLocは、LiDARグローバルローカライゼーションのための鳥眼ビュー(BEV)に基づく新しいフレームワークである。我々は、キーポイント中心のBEVパッチ間の既知の地理的距離を利用して、単一のBEV画像からトレーニング三重項を構築する。本研究では,S-BEVLocが位置認識,ループ閉鎖,グローバルなローカライゼーションタスクにおいて,最先端の性能を達成することを示す。
参考スコア（独自算出の注目度）: 34.79060534627474
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LiDAR-based global localization is an essential component of simultaneous localization and mapping (SLAM), which helps loop closure and re-localization. Current approaches rely on ground-truth poses obtained from GPS or SLAM odometry to supervise network training. Despite the great success of these supervised approaches, substantial cost and effort are required for high-precision ground-truth pose acquisition. In this work, we propose S-BEVLoc, a novel self-supervised framework based on bird's-eye view (BEV) for LiDAR global localization, which eliminates the need for ground-truth poses and is highly scalable. We construct training triplets from single BEV images by leveraging the known geographic distances between keypoint-centered BEV patches. Convolutional neural network (CNN) is used to extract local features, and NetVLAD is employed to aggregate global descriptors. Moreover, we introduce SoftCos loss to enhance learning from the generated triplets. Experimental results on the large-scale KITTI and NCLT datasets show that S-BEVLoc achieves state-of-the-art performance in place recognition, loop closure, and global localization tasks, while offering scalability that would require extra effort for supervised approaches.
Abstract（参考訳）: LiDARベースのグローバルローカライゼーションは、ループのクロージャと再ローカライゼーションを支援する、同時ローカライゼーションとマッピング(SLAM)の重要なコンポーネントである。現在のアプローチは、ネットワークトレーニングを監督するためにGPSやSLAMオドメトリーから得られる地道的なポーズに依存している。これらの監督的アプローチの大きな成功にもかかわらず、高精度な地道的ポーズ獲得には相当なコストと努力が必要である。本研究では,LiDARグローバルローカライゼーションのための鳥眼ビュー(BEV)に基づく,新たな自己教師型フレームワークであるS-BEVLocを提案する。我々は、キーポイント中心のBEVパッチ間の既知の地理的距離を利用して、単一のBEV画像からトレーニング三重項を構築する。畳み込みニューラルネットワーク(CNN)は局所的な特徴を抽出するために使用され、NetVLADはグローバルな記述子を集約するために使用される。さらに、生成した三つ子からの学習を強化するために、SoftCosの損失を導入する。大規模なKITTIとNCLTデータセットの実験結果から、S-BEVLocは位置認識、ループクロージャ、グローバルローカライゼーションタスクにおける最先端のパフォーマンスを実現し、教師付きアプローチに余分な労力を要するスケーラビリティを提供する。

関連論文リスト

Unbiased Region-Language Alignment for Open-Vocabulary Dense Prediction [80.67150791183126]
事前訓練された視覚言語モデル(VLM)は、印象的なゼロショット認識能力を示したが、それでも高密度予測タスクでは性能が劣っている。提案するDenseVLMは,非バイアスの領域言語アライメントを,強力な事前学習型VLM表現から学習するためのフレームワークである。 DenseVLMは、オープン語彙オブジェクト検出および画像分割法において、元のVLMを直接置き換えることができることを示す。
論文参考訳（メタデータ） (2024-12-09T06:34:23Z)
GLRT-Based Metric Learning for Remote Sensing Object Retrieval [19.210692452537007]
既存のCBRSOR法は、訓練段階と試験段階の両方において、グローバルな統計情報の利用を無視する。ナイマン・ピアソンの定理にインスパイアされた我々は、一般化された確率比テストベースメトリックラーニング(GLRTML)アプローチを提案する。
論文参考訳（メタデータ） (2024-10-08T07:53:30Z)
RING#: PR-by-PE Global Localization with Roto-translation Equivariant Gram Learning [20.688641105430467]
GPS信号が信頼できない場合、グローバルなローカライゼーションは自動運転やロボティクスの応用において不可欠である。ほとんどのアプローチは、逐次位置認識(PR)とポーズ推定(PE)により、グローバルなローカライゼーションを実現する。ポーズ推定から直接導出することで、別の場所認識の必要性を回避できる新しいパラダイムであるPR-by-PEローカライゼーションを導入する。本稿では,鳥眼視(BEV)空間で動作する終端PR-by-PEローカライゼーションネットワークであるRING#を提案する。
論文参考訳（メタデータ） (2024-08-30T18:42:53Z)
Locally Estimated Global Perturbations are Better than Local Perturbations for Federated Sharpness-aware Minimization [81.32266996009575]
フェデレートラーニング(FL)では、クライアント間の複数ステップの更新とデータの均一性が、よりシャープなミニマによるロスランドスケープにつながることが多い。クライアント側におけるグローバルな摂動方向を局所的に推定する新しいアルゴリズムであるFedLESAMを提案する。
論文参考訳（メタデータ） (2024-05-29T08:46:21Z)
Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2023-11-02T16:31:49Z)
Exploiting CLIP for Zero-shot HOI Detection Requires Knowledge Distillation at Multiple Levels [52.50670006414656]
大規模事前学習型視覚言語モデルであるCLIPを,多段階の知識蒸留に利用した。私たちのモデルをトレーニングするために、CLIPを使用して、グローバルイメージとローカルユニオン領域の両方のHOIスコアを生成する。このモデルは、完全な教師付きおよび弱い教師付き手法に匹敵する強力な性能を達成する。
論文参考訳（メタデータ） (2023-09-10T16:27:54Z)
SphereVLAD++: Attention-based and Signal-enhanced Viewpoint Invariant Descriptor [6.326554177747699]
SphereVLAD++ は注目度が高められた視点不変位置認識手法である。 SphereVLAD++は、小さな視点や完全に逆の視点差の下で、最先端の3D位置認識手法をすべて上回ることを示す。
論文参考訳（メタデータ） (2022-07-06T20:32:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。