Fugu-MT 論文翻訳(概要): Coarse-to-Fine Monocular Re-Localization in OpenStreetMap via Semantic Alignment

論文の概要: Coarse-to-Fine Monocular Re-Localization in OpenStreetMap via Semantic Alignment

arxiv url: http://arxiv.org/abs/2603.01613v1
Date: Mon, 02 Mar 2026 08:43:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.7745
Title: Coarse-to-Fine Monocular Re-Localization in OpenStreetMap via Semantic Alignment
Title（参考訳）: 意味的アライメントによるOpenStreetMapの粗1分子再ローカライゼーション
Authors: Yuchen Zou, Xiao Hu, Dexing Zhong, Yuqing Tang,
Abstract要約: 本稿では,OpenStreetMapにおける局所化のためのセマンティックアライメントを備えた階層型検索フレームワークを提案する。本手法は局所化精度と速度の両方を著しく向上させる。 1つのデータセットでトレーニングすると、我々のメソッドの3つの方向リコールは、最先端のメソッドの5つのリコールよりも優れています。
参考スコア（独自算出の注目度）: 11.415441412121474
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Monocular re-localization plays a crucial role in enabling intelligent agents to achieve human-like perception. However, traditional methods rely on dense maps, which face scalability limitations and privacy risks. OpenStreetMap (OSM), as a lightweight map that protects privacy, offers semantic and geometric information with global scalability. Nonetheless, there are still challenges in using OSM for localization: the inherent cross-modal discrepancies between natural images and OSM, as well as the high computational cost of global map-based localization. In this paper, we propose a hierarchical search framework with semantic alignment for localization in OSM. First, the semantic awareness capability of DINO-ViT is utilised to deconstruct visual elements to establish semantic relationships with OSM. Second, a coarse-to-fine search paradigm is designed to replace global dense matching, enabling efficient progressive refinement. Extensive experiments demonstrate that our method significantly improves both localization accuracy and speed. When trained on a single dataset, the 3° orientation recall of our method even outperforms the 5° recall of state-of-the-art methods.
Abstract（参考訳）: 単分子的再局在は、知的エージェントが人間のような知覚を達成できるようにする上で重要な役割を担っている。しかし、従来の手法は、スケーラビリティの制限とプライバシーのリスクに直面した高密度マップに依存している。 OpenStreetMap (OSM)は、プライバシを保護する軽量マップであり、グローバルなスケーラビリティを備えたセマンティックおよび幾何学的な情報を提供する。それにもかかわらず、自然画像とOSMの相互の相違や、グローバルマップベースのローカライゼーションの計算コストなど、OSMをローカライゼーションに使用する上ではまだ課題がある。本稿では,OSMにおける局所化のためのセマンティックアライメントを備えた階層型検索フレームワークを提案する。まず、DINO-ViTのセマンティック認識能力を利用して視覚要素を分解し、OSMとのセマンティックな関係を確立する。第二に、粗大な検索パラダイムは、グローバルな密集マッチングを置き換えるために設計されており、効率的なプログレッシブ・リファインメントを実現する。大規模な実験により,本手法は局所化精度と速度の両方を著しく向上させることが示された。 1つのデータセットでトレーニングすると、我々の方法の3°方向のリコールは、最先端のメソッドの5分の1のリコールよりも優れています。

関連論文リスト

PRISM-Loc: a Lightweight Long-range LiDAR Localization in Urban Environments with Topological Maps [0.8009940044669193]
大規模環境における局所化のためのトポロジカルマップに基づくアプローチであるPRISM-Locを提案する。提案手法では、グローバルな位置認識と、検出された位置内の局所的なポーズの推定からなる2倍の局所化パイプラインを利用する。提案手法をITLP-Campusデータセット上で3kmの経路で評価し,最先端のメートル法と位置認識方式の競合とを比較した。
論文参考訳（メタデータ） (2025-06-18T19:59:50Z)
STAMICS: Splat, Track And Map with Integrated Consistency and Semantics for Dense RGB-D SLAM [8.208389210258593]
本稿では,3次元ガウス表現と意味情報を統合して局所化とマッピングの精度を向上させる新しい手法STAMICSを紹介する。実験により、STAMICSはカメラのポーズ推定とマップの品質を著しく改善し、再現誤差を低減しつつ、最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2025-03-27T12:10:51Z)
SF-Loc: A Visual Mapping and Geo-Localization System based on Sparse Visual Structure Frames [3.5047603107971397]
SF-Locは軽量なビジュアルマッピングとマップ支援型ローカライゼーションシステムである。マッピングフェーズでは,多センサ高密度バンドル調整(MS-DBA)を適用し,ジオレファレンスな視覚構造フレームを構築する。ローカライズフェーズでは、多フレーム情報と地図分布を完全に統合した粗大な視覚に基づくローカライズを行う。
論文参考訳（メタデータ） (2024-12-02T13:51:58Z)
OSMLoc: Single Image-Based Visual Localization in OpenStreetMap with Fused Geometric and Semantic Guidance [20.043977909592115]
OSMLocは、OpenStreetMapマップに対するファーストパーソナライズされたイメージに基づく、脳にインスパイアされた視覚的ローカライゼーションアプローチである。意味的および幾何学的ガイダンスを統合し、精度、堅牢性、一般化能力を大幅に改善する。
論文参考訳（メタデータ） (2024-11-13T14:59:00Z)
Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。その結果,本手法は現在の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2024-08-21T03:31:30Z)
Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文参考訳（メタデータ） (2024-07-02T09:11:17Z)
Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。 GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-21T11:59:36Z)
Mapping High-level Semantic Regions in Indoor Environments without Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文参考訳（メタデータ） (2024-03-11T18:09:50Z)
Towards Compact 3D Representations via Point Feature Enhancement Masked Autoencoders [52.66195794216989]
本稿では,コンパクトな3D表現を学習するために,ポイント特徴強調マスク付きオートエンコーダ(Point-FEMAE)を提案する。 Point-FEMAEはグローバルブランチとローカルブランチで構成され、潜在意味的特徴をキャプチャする。本手法は, クロスモーダル方式と比較して, 事前学習効率を著しく向上させる。
論文参考訳（メタデータ） (2023-12-17T14:17:05Z)
Lightweight Object-level Topological Semantic Mapping and Long-term Global Localization based on Graph Matching [19.706907816202946]
本稿では,高精度でロバストなオブジェクトレベルのマッピングとローカライズ手法を提案する。我々は、環境のランドマークをモデル化するために、意味情報と幾何学情報の両方を持つオブジェクトレベルの特徴を使用する。提案したマップに基づいて,新たな局所的シーングラフ記述子を構築することにより,ロバストなローカライゼーションを実現する。
論文参考訳（メタデータ） (2022-01-16T05:47:07Z)
OpenStreetMap: Challenges and Opportunities in Machine Learning and Remote Sensing [66.23463054467653]
本稿では,OpenStreetMapデータの改良と利用のための機械学習に基づく最近の手法について述べる。私たちは、OSMがリモートセンシングデータの解釈方法を変え、機械学習とのシナジーが参加型マップ作成をスケールできると考えている。
論文参考訳（メタデータ） (2020-07-13T09:58:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。