論文の概要: RING#: PR-by-PE Global Localization with Roto-translation Equivariant Gram Learning
- arxiv url: http://arxiv.org/abs/2409.00206v2
- Date: Tue, 17 Sep 2024 11:26:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 21:19:40.202845
- Title: RING#: PR-by-PE Global Localization with Roto-translation Equivariant Gram Learning
- Title(参考訳): RING#: Roto-translation Equivariant Gram Learningを用いたPR-by-PEグローバルローカライゼーション
- Authors: Sha Lu, Xuecheng Xu, Yuxuan Wu, Haojian Lu, Xieyuanli Chen, Rong Xiong, Yue Wang,
- Abstract要約: GPS信号が信頼できない場合、グローバルなローカライゼーションは自動運転やロボティクスの応用において不可欠である。
ほとんどのアプローチは、逐次位置認識(PR)とポーズ推定(PE)により、グローバルなローカライゼーションを実現する。
ポーズ推定から直接導出することで、別の場所認識の必要性を回避できる新しいパラダイムであるPR-by-PEローカライゼーションを導入する。
本稿では,鳥眼視(BEV)空間で動作する終端PR-by-PEローカライゼーションネットワークであるRING#を提案する。
- 参考スコア(独自算出の注目度): 20.688641105430467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Global localization using onboard perception sensors, such as cameras and LiDARs, is crucial in autonomous driving and robotics applications when GPS signals are unreliable. Most approaches achieve global localization by sequential place recognition (PR) and pose estimation (PE). Some methods train separate models for each task, while others employ a single model with dual heads, trained jointly with separate task-specific losses. However, the accuracy of localization heavily depends on the success of place recognition, which often fails in scenarios with significant changes in viewpoint or environmental appearance. Consequently, this renders the final pose estimation of localization ineffective. To address this, we introduce a new paradigm, PR-by-PE localization, which bypasses the need for separate place recognition by directly deriving it from pose estimation. We propose RING#, an end-to-end PR-by-PE localization network that operates in the bird's-eye-view (BEV) space, compatible with both vision and LiDAR sensors. RING# incorporates a novel design that learns two equivariant representations from BEV features, enabling globally convergent and computationally efficient pose estimation. Comprehensive experiments on the NCLT and Oxford datasets show that RING# outperforms state-of-the-art methods in both vision and LiDAR modalities, validating the effectiveness of the proposed approach. The code will be publicly released.
- Abstract(参考訳): カメラやLiDARなどの搭載センサーを用いたグローバルなローカライゼーションは、GPS信号が信頼できない場合に自律運転やロボット工学の応用に不可欠である。
ほとんどのアプローチは、逐次位置認識(PR)とポーズ推定(PE)によって、グローバルなローカライゼーションを実現する。
ある方法はタスクごとに別々のモデルを訓練するが、別の方法は2つのヘッドを持つ1つのモデルを採用し、別のタスク固有の損失と共同で訓練する。
しかし、位置認識の精度は位置認識の成功に大きく依存しており、視点や環境の外観に大きな変化があるシナリオではしばしば失敗する。
これにより、最終ポーズ推定はローカライゼーションを非効率にする。
そこで本研究では,ポーズ推定から直接導出することで,位置認識の分離の必要性を回避できる新しいパラダイムであるPR-by-PEローカライゼーションを提案する。
本稿では,鳥眼視(BEV)空間で動作する終端PR-by-PEローカライゼーションネットワークであるRING#を提案する。
RING#は、BEVの特徴から2つの同変表現を学習する新しい設計を取り入れ、グローバルに収束し、計算的に効率的なポーズ推定を可能にする。
NCLTとオックスフォードデータセットの総合的な実験により、RING#はビジョンとLiDARの両モードで最先端の手法より優れており、提案手法の有効性が検証されている。
コードは公開されます。
関連論文リスト
- Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information [68.10033984296247]
本稿では, 位置決めの精度を高めるために, 視点選択の重要性を強調し, アクティブな位置決め領域について検討する。
私たちのコントリビューションは、リアルタイム操作用に設計されたシンプルなアーキテクチャ、自己教師付きデータトレーニング方法、および実世界のロボティクスアプリケーションに適した計画フレームワークにマップを一貫して統合する能力による、データ駆動型アプローチの使用に関するものです。
論文 参考訳(メタデータ) (2024-07-22T12:32:09Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - Adaptive Global-Local Representation Learning and Selection for
Cross-Domain Facial Expression Recognition [54.334773598942775]
ドメインシフトは、クロスドメイン顔表情認識(CD-FER)において重要な課題となる
適応的グローバルローカル表現学習・選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-20T02:21:41Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - RING++: Roto-translation Invariant Gram for Global Localization on a
Sparse Scan Map [20.276334172402763]
本稿では、位置認識のためのロト変換不変表現と、回転と翻訳の両方のグローバル収束を持つRing++を提案する。
理論的保証により、RING++はスパーススキャン付き軽量マップを使用して、大きな視点差に対処することができる。
これはスパーススキャンマップにおけるグローバルローカライゼーションのすべてのサブタスクに対処する初めての学習不要フレームワークである。
論文 参考訳(メタデータ) (2022-10-12T07:49:24Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - SphereVLAD++: Attention-based and Signal-enhanced Viewpoint Invariant
Descriptor [6.326554177747699]
SphereVLAD++ は注目度が高められた視点不変位置認識手法である。
SphereVLAD++は、小さな視点や完全に逆の視点差の下で、最先端の3D位置認識手法をすべて上回ることを示す。
論文 参考訳(メタデータ) (2022-07-06T20:32:43Z) - Probabilistic Appearance-Invariant Topometric Localization with New
Place Awareness [23.615781318030454]
運動モデルにフル3dof odometryを組み込んで,状態推定フレームワーク内に"オフマップ"状態を追加する,新しいトポロジカルローカライゼーションシステムを提案する。
提案手法は,既存システムと改良型システムの両方に対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-07-16T05:01:40Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。