論文の概要: TOL: Textual Localization with OpenStreetMap
- arxiv url: http://arxiv.org/abs/2604.01644v1
- Date: Thu, 02 Apr 2026 05:43:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.455974
- Title: TOL: Textual Localization with OpenStreetMap
- Title(参考訳): TOL: OpenStreetMapによるテキストのローカライゼーション
- Authors: Youqi Liao, Shuhao Kang, Jingyu Xu, Olaf Wysocki, Yan Xia, Jianping Li, Zhen Dong, Bisheng Yang, Xieyuanli Chen,
- Abstract要約: OpenStreetMap (OSM)は、リッチな意味と構造情報をエンコードするコンパクトで自由なマップ表現を提供する。
都市環境における2自由度(DoF)の正確な位置推定を目的としたT2Oグローバルローカライゼーションタスクを定式化する。
提案課題を支援するため,複数の大陸と多様な都市環境にまたがる大規模ベンチマークTOLを紹介する。
- 参考スコア(独自算出の注目度): 22.592886321477554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language provides an intuitive way to express spatial intent in geospatial applications. While existing localization methods often rely on dense point cloud maps or high-resolution imagery, OpenStreetMap (OSM) offers a compact and freely available map representation that encodes rich semantic and structural information, making it well suited for large-scale localization. However, text-to-OSM (T2O) localization remains largely unexplored. In this paper, we formulate the T2O global localization task, which aims to estimate accurate 2 degree-of-freedom (DoF) positions in urban environments from textual scene descriptions without relying on geometric observations or GNSS-based initial location. To support the proposed task, we introduce TOL, a large-scale benchmark spanning multiple continents and diverse urban environments. TOL contains approximately 121K textual queries paired with OSM map tiles and covers about 316 km of road trajectories across Boston, Karlsruhe, and Singapore. We further propose TOLoc, a coarse-to-fine localization framework that explicitly models the semantics of surrounding objects and their directional information. In the coarse stage, direction-aware features are extracted from both textual descriptions and OSM tiles to construct global descriptors, which are used to retrieve candidate locations for the query. In the fine stage, the query text and top-1 retrieved tile are jointly processed, where a dedicated alignment module fuses textual descriptor and local map features to regress the 2-DoF pose. Experimental results demonstrate that TOLoc achieves strong localization performance, outperforming the best existing method by 6.53%, 9.93%, and 8.31% at 5m, 10m, and 25m thresholds, respectively, and shows strong generalization to unseen environments. Dataset, code and models will be publicly available at: https://github.com/WHU-USI3DV/TOL.
- Abstract(参考訳): 自然言語は地理空間的応用における空間的意図を表現する直感的な方法を提供する。
既存のローカライゼーション手法は高解像度のクラウドマップや高解像度画像に依存することが多いが、OpenStreetMap (OSM)は、リッチなセマンティックと構造情報をエンコードするコンパクトで自由なマップ表現を提供しており、大規模なローカライゼーションに適している。
しかし、テキスト-to-OSM (T2O) のローカライゼーションはほとんど探索されていない。
本稿では,都市環境における2自由度(DoF)の正確な位置を,幾何学的観測やGNSSに基づく初期位置に依存することなく,テキストのシーン記述から推定することを目的としたT2Oグローバルローカライゼーションタスクを定式化する。
提案課題を支援するため,複数の大陸と多様な都市環境にまたがる大規模ベンチマークTOLを紹介する。
TOLには、OSMマップタイルと組み合わせた約121Kのテキストクエリが含まれており、ボストン、カールスルーエ、シンガポールの約316kmの道路軌跡をカバーしている。
さらに,周辺オブジェクトのセマンティクスとその方向情報を明確にモデル化する,粗大な局所化フレームワークであるTOLOCを提案する。
粗い段階では、テキスト記述とOSMタイルの両方から方向認識の特徴を抽出してグローバルな記述子を構築し、クエリの候補位置を検索する。
細かい段階では、クエリテキストとトップ1検索タイルが共同で処理され、専用のアライメントモジュールがテキスト記述子とローカルマップ機能を融合して2-DoFのポーズを後退させる。
実験結果から,TOLOCは,5m,10m,25mの領域でそれぞれ6.53%,9.93%,8.31%,既存手法よりも高いローカライゼーション性能を示した。
データセット、コード、モデルは、https://github.com/WHU-USI3DV/TOLで公開されます。
関連論文リスト
- VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models [33.748083718525756]
テキスト・ツー・ポイント・クラウド(T2P)のローカライゼーションは、自然言語記述から3次元ポイント・クラウドマップ内の正確な空間位置を推定することを目的としている。
大規模視覚言語モデルの空間的推論能力を活用するフレームワークであるVLM-Locを提案する。
CityLocの実験では、VLM-Locは最先端の手法に比べて精度と堅牢性に優れていた。
論文 参考訳(メタデータ) (2026-03-10T15:48:25Z) - Coarse-to-Fine Monocular Re-Localization in OpenStreetMap via Semantic Alignment [11.415441412121474]
本稿では,OpenStreetMapにおける局所化のためのセマンティックアライメントを備えた階層型検索フレームワークを提案する。
本手法は局所化精度と速度の両方を著しく向上させる。
1つのデータセットでトレーニングすると、我々のメソッドの3つの方向リコールは、最先端のメソッドの5つのリコールよりも優れています。
論文 参考訳(メタデータ) (2026-03-02T08:43:43Z) - Where on Earth? A Vision-Language Benchmark for Probing Model Geolocation Skills Across Scales [61.03549470159347]
視覚言語モデル (VLM) は急速に進歩しているが, オープンワールド環境における画像位置決め能力は, 網羅的に評価されていない。
我々は、視覚認識、ステップバイステップ推論、エビデンス利用を評価するVLM画像位置情報の総合ベンチマークであるEarthWhereを提示する。
論文 参考訳(メタデータ) (2025-10-13T01:12:21Z) - DescribeEarth: Describe Anything for Remote Sensing Images [56.04533626223295]
リモートセンシングのためのオブジェクトレベルのきめ細かい画像キャプションのための新しいタスクであるGeo-DLCを提案する。
このタスクを支援するために,オブジェクト属性,関係,コンテキストを詳細に記述した大規模データセットであるDE-Datasetを構築した。
また,Geo-DLC用に設計されたマルチモーダル大規模言語モデルアーキテクチャであるDescribeEarthを提案する。
論文 参考訳(メタデータ) (2025-09-30T01:53:34Z) - PRISM-Loc: a Lightweight Long-range LiDAR Localization in Urban Environments with Topological Maps [0.8009940044669193]
大規模環境における局所化のためのトポロジカルマップに基づくアプローチであるPRISM-Locを提案する。
提案手法では、グローバルな位置認識と、検出された位置内の局所的なポーズの推定からなる2倍の局所化パイプラインを利用する。
提案手法をITLP-Campusデータセット上で3kmの経路で評価し,最先端のメートル法と位置認識方式の競合とを比較した。
論文 参考訳(メタデータ) (2025-06-18T19:59:50Z) - MapExplorer: New Content Generation from Low-Dimensional Visualizations [60.02149343347818]
低次元の可視化や「投影マップ」は大規模で複雑なデータセットの解釈に広く用いられている。
これらの視覚化は、既存の知識空間を理解するのに役立つだけでなく、未知の領域への探索を暗黙的にガイドする。
プロジェクションマップ内の座標をコヒーレントでコンテキストに整合したテキストコンテンツに変換する新しい知識発見タスクであるMapExplorerを紹介する。
論文 参考訳(メタデータ) (2024-12-24T20:16:13Z) - SF-Loc: A Visual Mapping and Geo-Localization System based on Sparse Visual Structure Frames [3.5047603107971397]
SF-Locは軽量なビジュアルマッピングとマップ支援型ローカライゼーションシステムである。
マッピングフェーズでは,多センサ高密度バンドル調整(MS-DBA)を適用し,ジオレファレンスな視覚構造フレームを構築する。
ローカライズフェーズでは、多フレーム情報と地図分布を完全に統合した粗大な視覚に基づくローカライズを行う。
論文 参考訳(メタデータ) (2024-12-02T13:51:58Z) - Text2Loc: 3D Point Cloud Localization from Natural Language [49.01851743372889]
我々は,いくつかの言語学的記述に基づく3次元点群局所化の問題に取り組む。
我々は,ポイントとテキスト間の意味的関係を完全に解釈する新しいニューラルネットワークText2Locを導入する。
Text2Locは、KITTI360Poseデータセットの最先端技術に対して最大2倍のローカライゼーション精度を向上する。
論文 参考訳(メタデータ) (2023-11-27T16:23:01Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。