論文の概要: STRMs: Spatial Temporal Reasoning Models for Vision-Based Localization Rivaling GPS Precision
- arxiv url: http://arxiv.org/abs/2503.07939v1
- Date: Tue, 11 Mar 2025 00:38:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:43:55.643378
- Title: STRMs: Spatial Temporal Reasoning Models for Vision-Based Localization Rivaling GPS Precision
- Title(参考訳): STRMs:視覚に基づく局所化変動GPS精度のための時空間推論モデル
- Authors: Hin Wai Lui, Jeffrey L. Krichmar,
- Abstract要約: VAE-RNNとVAE-Transformerという2つの逐次生成モデルを導入し,一対一の視点観察をグローバルマップの視点表現に変換する。
我々は、ジャカルロボットによってナビゲートされた大学キャンパスと、Teslaセダンによってナビゲートされた都市中心街の2つの現実世界環境において、これらのモデルを評価した。
- 参考スコア(独自算出の注目度): 3.671692919685993
- License:
- Abstract: This paper explores vision-based localization through a biologically-inspired approach that mirrors how humans and animals link views or perspectives when navigating their world. We introduce two sequential generative models, VAE-RNN and VAE-Transformer, which transform first-person perspective (FPP) observations into global map perspective (GMP) representations and precise geographical coordinates. Unlike retrieval-based methods, our approach frames localization as a generative task, learning direct mappings between perspectives without relying on dense satellite image databases. We evaluate these models across two real-world environments: a university campus navigated by a Jackal robot and an urban downtown area navigated by a Tesla sedan. The VAE-Transformer achieves impressive precision, with median deviations of 2.29m (1.37% of environment size) and 4.45m (0.35% of environment size) respectively, outperforming both VAE-RNN and prior cross-view geo-localization approaches. Our comprehensive Localization Performance Characteristics (LPC) analysis demonstrates superior performance with the VAE-Transformer achieving an AUC of 0.777 compared to 0.295 for VIGOR 200 and 0.225 for TransGeo, establishing a new state-of-the-art in vision-based localization. In some scenarios, our vision-based system rivals commercial smartphone GPS accuracy (AUC of 0.797) while requiring 5x less GPU memory and delivering 3x faster inference than existing methods in cross-view geo-localization. These results demonstrate that models inspired by biological spatial navigation can effectively memorize complex, dynamic environments and provide precise localization with minimal computational resources.
- Abstract(参考訳): 本稿では,人間と動物が世界をナビゲートする際の視点や視点をどのようにリンクするかを反映する生物学的に着想を得たアプローチを通じて,視覚に基づくローカライゼーションを探索する。
VAE-RNNとVAE-Transformerという2つの逐次生成モデルを導入し、FPPの観察結果をグローバルマップの視点(GMP)表現と正確な地理的座標に変換する。
検索に基づく手法とは違って,本手法では,高密度衛星画像データベースに頼ることなく,視点間の直接マッピングを学習し,局所化を生成タスクとする。
我々は、ジャカルロボットによってナビゲートされた大学キャンパスと、Teslaセダンによってナビゲートされた都市中心街の2つの現実世界環境において、これらのモデルを評価した。
VAEトランスフォーマーは、それぞれ2.29m (環境サイズの1.37%) と4.45m (環境サイズの0.35%) の偏差があり、VAE-RNNとそれ以前のクロスビューのジオローカライゼーションアプローチより優れている。
包括的局所化性能特性 (LPC) 解析により, VIGOR 200 の0.295 と TransGeo の0.225 に対して, VAE-Transformer が 0.777 の AUC を実現したのに対し,VAE-Transformer の方が優れた性能を示した。
いくつかのシナリオでは、私たちのビジョンベースのシステムは、商用スマートフォンのGPS精度(AUC: 0.797)に匹敵し、GPUメモリは5倍少なく、また、既存のビューのジオローカライゼーション手法よりも3倍高速な推論を提供する。
これらの結果は、生物学的空間ナビゲーションにインスパイアされたモデルが、複雑な動的環境を効果的に記憶し、最小限の計算資源で正確な局所化を提供することを示した。
関連論文リスト
- RING#: PR-by-PE Global Localization with Roto-translation Equivariant Gram Learning [20.688641105430467]
GPS信号が信頼できない場合、グローバルなローカライゼーションは自動運転やロボティクスの応用において不可欠である。
ほとんどのアプローチは、逐次位置認識(PR)とポーズ推定(PE)により、グローバルなローカライゼーションを実現する。
ポーズ推定から直接導出することで、別の場所認識の必要性を回避できる新しいパラダイムであるPR-by-PEローカライゼーションを導入する。
本稿では,鳥眼視(BEV)空間で動作する終端PR-by-PEローカライゼーションネットワークであるRING#を提案する。
論文 参考訳(メタデータ) (2024-08-30T18:42:53Z) - BEV-CV: Birds-Eye-View Transform for Cross-View Geo-Localisation [15.324623975476348]
地理的局所化のためのクロスビュー画像マッチングは、空中と地上の視点の視覚的違いが著しく異なるため、難しい問題である。
BEV-CVは2つの重要なノベルティを導入するアプローチであり、クロスビューなジオローカライゼーションの現実的実現性の向上に重点を置いている。
論文 参考訳(メタデータ) (2023-12-23T22:20:45Z) - Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Boosting 3-DoF Ground-to-Satellite Camera Localization Accuracy via
Geometry-Guided Cross-View Transformer [66.82008165644892]
地上レベルの画像と一致/検索衛星画像との相対的な回転と変換を推定することにより、地上カメラの位置と方向の精度を向上させる手法を提案する。
実験の結果,本手法は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-16T11:52:27Z) - Lightweight Vision Transformer with Bidirectional Interaction [59.39874544410419]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - 4Seasons: Benchmarking Visual SLAM and Long-Term Localization for
Autonomous Driving in Challenging Conditions [54.59279160621111]
大規模4Seasonsデータセットに基づく課題条件下での自律運転のための新しい視覚的SLAMと長期局所化ベンチマークを提案する。
提案したベンチマークでは,季節変化や天候,照明条件の変動による劇的な外見の変化が報告されている。
本稿では,視覚計測,大域的位置認識,および地図に基づく視覚的位置決め性能を共同評価するための統合ベンチマークを提案する。
論文 参考訳(メタデータ) (2022-12-31T13:52:36Z) - iSimLoc: Visual Global Localization for Previously Unseen Environments
with Simulated Images [21.43167626240771]
本稿では,一貫した階層的グローバル再ローカライズ手法iSimLocを提案する。
iSimLocの配置機能は、外観や視点の変化の下でターゲット画像の検索に利用することができる。
本研究では,長期飛行における大規模マッチングの実証に焦点をあてた,外観変化のある1つのデータセットと1つのデータセットについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-14T02:40:50Z) - Co-visual pattern augmented generative transformer learning for
automobile geo-localization [12.449657263683337]
クロスビュージオローカライゼーション(CVGL)は、地上カメラの地理的位置を、巨大なジオタグ付き空中画像とマッチングすることによって推定することを目的としている。
CVGLのための相互生成型トランスフォーマー学習(MGTL)という,トランスフォーマーと組み合わせたクロスビュー知識生成技術を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T07:29:02Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。