論文の概要: RING#: PR-by-PE Global Localization with Roto-translation Equivariant Gram Learning
- arxiv url: http://arxiv.org/abs/2409.00206v1
- Date: Fri, 30 Aug 2024 18:42:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 16:37:47.859752
- Title: RING#: PR-by-PE Global Localization with Roto-translation Equivariant Gram Learning
- Title(参考訳): RING#: Roto-translation Equivariant Gram Learningを用いたPR-by-PEグローバルローカライゼーション
- Authors: Sha Lu, Xuecheng Xu, Yuxuan Wu, Haojian Lu, Xieyuanli Chen, Rong Xiong, Yue Wang,
- Abstract要約: 本研究では,ポーズ推定から直接位置認識を導出することにより,グローバルな位置推定精度を向上させるPR-by-PEローカライゼーションを提案する。
我々のフレームワークであるRING#は、鳥眼ビュー(BEV)空間で動作するエンドツーエンドのPR-by-PEローカライゼーションネットワークである。
- 参考スコア(独自算出の注目度): 20.688641105430467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Global localization using onboard perception sensors, such as cameras and LiDARs, is crucial in autonomous driving and robotics applications when GPS signals are unreliable. Most approaches achieve global localization by sequential place recognition and pose estimation. Some of them train separate models for each task, while others employ a single model with dual heads, trained jointly with separate task-specific losses. However, the accuracy of localization heavily depends on the success of place recognition, which often fails in scenarios with significant changes in viewpoint or environmental appearance. Consequently, this renders the final pose estimation of localization ineffective. To address this, we propose a novel paradigm, PR-by-PE localization, which improves global localization accuracy by deriving place recognition directly from pose estimation. Our framework, RING#, is an end-to-end PR-by-PE localization network operating in the bird's-eye view (BEV) space, designed to support both vision and LiDAR sensors. It introduces a theoretical foundation for learning two equivariant representations from BEV features, which enables globally convergent and computationally efficient pose estimation. Comprehensive experiments on the NCLT and Oxford datasets across both vision and LiDAR modalities demonstrate that our method outperforms state-of-the-art approaches. Furthermore, we provide extensive analyses to confirm the effectiveness of our method. The code will be publicly released.
- Abstract(参考訳): カメラやLiDARなどの搭載センサーを用いたグローバルなローカライゼーションは、GPS信号が信頼できない場合に自律運転やロボット工学の応用に不可欠である。
ほとんどのアプローチは、シーケンシャルな位置認識とポーズ推定によって、グローバルなローカライゼーションを実現する。
そのうちのいくつかはタスクごとに個別のモデルを訓練し、他方は2つのヘッドを持つ1つのモデルを採用し、タスク固有の損失を個別にトレーニングする。
しかし、位置認識の精度は位置認識の成功に大きく依存しており、視点や環境の外観に大きな変化があるシナリオではしばしば失敗する。
これにより、最終ポーズ推定はローカライゼーションを非効率にする。
そこで本研究では,ポーズ推定から直接位置認識を導出することにより,グローバルな位置推定精度を向上させる新しいパラダイムであるPR-by-PEローカライゼーションを提案する。
我々のフレームワークであるRING#は、鳥眼ビュー(BEV)空間で動作するエンドツーエンドのPR-by-PEローカライゼーションネットワークであり、視覚とLiDARセンサーの両方をサポートするように設計されている。
BEV特徴量から2つの同変表現を学習するための理論的基礎を導入し、世界規模で収束し、計算的に効率的なポーズ推定を可能にする。
NCLTとオックスフォードデータセットの総合的な実験は、視覚とLiDARの両モードで、我々の手法が最先端のアプローチよりも優れていることを示した。
さらに,本手法の有効性を確認するため,広範囲な解析を行った。
コードは公開されます。
関連論文リスト
- Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information [68.10033984296247]
本稿では, 位置決めの精度を高めるために, 視点選択の重要性を強調し, アクティブな位置決め領域について検討する。
私たちのコントリビューションは、リアルタイム操作用に設計されたシンプルなアーキテクチャ、自己教師付きデータトレーニング方法、および実世界のロボティクスアプリケーションに適した計画フレームワークにマップを一貫して統合する能力による、データ駆動型アプローチの使用に関するものです。
論文 参考訳(メタデータ) (2024-07-22T12:32:09Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - Adaptive Global-Local Representation Learning and Selection for
Cross-Domain Facial Expression Recognition [54.334773598942775]
ドメインシフトは、クロスドメイン顔表情認識(CD-FER)において重要な課題となる
適応的グローバルローカル表現学習・選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-20T02:21:41Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - RING++: Roto-translation Invariant Gram for Global Localization on a
Sparse Scan Map [20.276334172402763]
本稿では、位置認識のためのロト変換不変表現と、回転と翻訳の両方のグローバル収束を持つRing++を提案する。
理論的保証により、RING++はスパーススキャン付き軽量マップを使用して、大きな視点差に対処することができる。
これはスパーススキャンマップにおけるグローバルローカライゼーションのすべてのサブタスクに対処する初めての学習不要フレームワークである。
論文 参考訳(メタデータ) (2022-10-12T07:49:24Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - SphereVLAD++: Attention-based and Signal-enhanced Viewpoint Invariant
Descriptor [6.326554177747699]
SphereVLAD++ は注目度が高められた視点不変位置認識手法である。
SphereVLAD++は、小さな視点や完全に逆の視点差の下で、最先端の3D位置認識手法をすべて上回ることを示す。
論文 参考訳(メタデータ) (2022-07-06T20:32:43Z) - Probabilistic Appearance-Invariant Topometric Localization with New
Place Awareness [23.615781318030454]
運動モデルにフル3dof odometryを組み込んで,状態推定フレームワーク内に"オフマップ"状態を追加する,新しいトポロジカルローカライゼーションシステムを提案する。
提案手法は,既存システムと改良型システムの両方に対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-07-16T05:01:40Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。