Fugu-MT 論文翻訳(概要): OSMLoc: Single Image-Based Visual Localization in OpenStreetMap with Geometric and Semantic Guidances

論文の概要: OSMLoc: Single Image-Based Visual Localization in OpenStreetMap with Geometric and Semantic Guidances

arxiv url: http://arxiv.org/abs/2411.08665v1
Date: Wed, 13 Nov 2024 14:59:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.309604
Title: OSMLoc: Single Image-Based Visual Localization in OpenStreetMap with Geometric and Semantic Guidances
Title（参考訳）: OSMLoc: 幾何学的および意味論的ガイダンスを備えたOpenStreetMapにおける単一イメージベースの視覚的ローカライゼーション
Authors: Youqi Liao, Xieyuanli Chen, Shuhao Kang, Jianping Li, Zhen Dong, Hongchao Fan, Bisheng Yang,
Abstract要約: OSMLocは、脳にインスパイアされた単一画像の視覚的位置決め手法であり、精度、堅牢性、一般化能力を改善するための意味的および幾何学的ガイダンスを備えている。提案したOSMLOCを検証するため,世界規模のクロスエリアとクロスコンディション(CC)のベンチマークを収集し,広範な評価を行う。
参考スコア（独自算出の注目度）: 11.085165252259042
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: OpenStreetMap (OSM), an online and versatile source of volunteered geographic information (VGI), is widely used for human self-localization by matching nearby visual observations with vectorized map data. However, due to the divergence in modalities and views, image-to-OSM (I2O) matching and localization remain challenging for robots, preventing the full utilization of VGI data in the unmanned ground vehicles and logistic industry. Inspired by the fact that the human brain relies on geometric and semantic understanding of sensory information for spatial localization tasks, we propose the OSMLoc in this paper. OSMLoc is a brain-inspired single-image visual localization method with semantic and geometric guidance to improve accuracy, robustness, and generalization ability. First, we equip the OSMLoc with the visual foundational model to extract powerful image features. Second, a geometry-guided depth distribution adapter is proposed to bridge the monocular depth estimation and camera-to-BEV transform. Thirdly, the semantic embeddings from the OSM data are utilized as auxiliary guidance for image-to-OSM feature matching. To validate the proposed OSMLoc, we collect a worldwide cross-area and cross-condition (CC) benchmark for extensive evaluation. Experiments on the MGL dataset, CC validation benchmark, and KITTI dataset have demonstrated the superiority of our method. Code, pre-trained models, CC validation benchmark, and additional results are available on: https://github.com/WHU-USI3DV/OSMLoc
Abstract（参考訳）: OpenStreetMap(OSM)は、ボランティア地理情報(VGI)のオンラインおよび汎用的な情報源であり、近傍の視覚観測とベクトル化された地図データとをマッチングすることにより、人間の自己局在化に広く利用されている。しかし、モダリティやビューのばらつきのため、画像からOSM(I2O)のマッチングやローカライゼーションはロボットにとって依然として困難であり、無人地上車両やロジスティック産業におけるVGIデータのフル活用を妨げている。本稿では,人間の脳が空間的局所化タスクにおける感覚情報の幾何学的・意味的理解に依存しているという事実に着想を得て,OSMLocを提案する。 OSMLocは、脳にインスパイアされた単一画像の視覚的位置決め手法であり、精度、堅牢性、一般化能力を改善するための意味的および幾何学的ガイダンスを備えている。まず,OSMLOCに視覚基盤モデルを加え,強力な画像特徴を抽出する。第2に、単眼深度推定とカメラ間BEV変換をブリッジするために、幾何誘導深度分布アダプタを提案する。第3に、OSMデータからのセマンティック埋め込みを、画像間OSM特徴マッチングの補助ガイダンスとして利用する。提案したOSMLOCを検証するため,世界規模のクロスエリアとクロスコンディション(CC)のベンチマークを収集し,広範な評価を行う。 MGLデータセット,CC検証ベンチマーク,KITTIデータセットの実験により,本手法の優位性を実証した。コード、事前トレーニングされたモデル、CC検証ベンチマーク、その他の結果がhttps://github.com/WHU-USI3DV/OSMLocで公開されている。

関連論文リスト

Coarse-to-Fine Monocular Re-Localization in OpenStreetMap via Semantic Alignment [11.415441412121474]
本稿では,OpenStreetMapにおける局所化のためのセマンティックアライメントを備えた階層型検索フレームワークを提案する。本手法は局所化精度と速度の両方を著しく向上させる。 1つのデータセットでトレーニングすると、我々のメソッドの3つの方向リコールは、最先端のメソッドの5つのリコールよりも優れています。
論文参考訳（メタデータ） (2026-03-02T08:43:43Z)
Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization [26.98749852286485]
モデルtextitThinking with Map with agent-in-the-map loop ability and formulate it as an agent-in-the-map loop。エージェント強化学習(RL)と並列テスト時間スケーリング(TTS)を含む2段階最適化手法を開発した。さらに,本手法を最新・最新画像で評価するために,実世界の画像で構成された総合的なジオローカライズ訓練および評価ベンチマークMAPBenchを提案する。
論文参考訳（メタデータ） (2026-01-08T23:47:30Z)
HOLO: Homography-Guided Pose Estimator Network for Fine-Grained Visual Localization on SD Maps [13.643067075619841]
マルチビュー画像と標準定義(SD)マップ間の視覚的微粒化のための,新しいホモグラフィ誘導ポーズ推定ネットワークを提案する。我々の知る限りでは、画像からマップへのローカライゼーションのためのホモグラフィ学習とBEVセマンティック推論を統合化するための最初の試みである。
論文参考訳（メタデータ） (2026-01-06T05:48:47Z)
CLNet: Cross-View Correspondence Makes a Stronger Geo-Localizationer [48.52152634356309]
本稿では,異なるビュー間の意味的および幾何学的ギャップを明示的に橋渡しする,CLNetと呼ばれる通信対応機能改善フレームワークを提案する。 CLNetはビューアライメントプロセスを3つの学習可能な補完モジュールに分解する。提案するCLNetは、より優れた解釈性と一般化性を提供しながら、最先端の性能を実現する。
論文参考訳（メタデータ） (2025-12-16T16:31:41Z)
GLEAM: Learning to Match and Explain in Cross-View Geo-Localization [66.11208984986813]
CVGL(Cross-View Geo-Localization)は、同じ地理的位置の異なる視点から撮影された画像間の対応を識別することに焦点を当てている。 GLEAM-Cは、UAV画像、ストリートマップ、パノラマ画像、地上写真を含む複数のビューとモダリティを衛星画像のみに合わせる基本CVGLモデルである。従来のCVGL手法では解釈可能性の欠如に対処するため,クロスビュー対応予測と説明可能な推論を組み合わせたGLEAM-Xを提案する。
論文参考訳（メタデータ） (2025-09-09T07:14:31Z)
SMLNet: A SPD Manifold Learning Network for Infrared and Visible Image Fusion [60.18614468818683]
マルチモーダル画像融合のための新しいSPD(対称正定値)多様体学習を提案する。我々のフレームワークは現在の最先端手法と比較して優れた性能を示す。
論文参考訳（メタデータ） (2024-11-16T03:09:49Z)
Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。 LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文参考訳（メタデータ） (2024-10-24T17:54:42Z)
Multiview Scene Graph [7.460438046915524]
適切なシーン表現は、空間知性の追求の中心である。未提示画像からマルチビューシーングラフ(MSG)を構築することを提案する。 MSGは、場所とオブジェクトノードを相互接続したシーンをトポロジ的に表現する。
論文参考訳（メタデータ） (2024-10-15T02:04:05Z)
Monocular Visual Place Recognition in LiDAR Maps via Cross-Modal State Space Model and Multi-View Matching [2.400446821380503]
我々はRGB画像とポイントクラウドの両方のディスクリプタを学習するための効率的なフレームワークを導入する。視覚状態空間モデル(VMamba)をバックボーンとして、ピクセルビューとシーンの共同トレーニング戦略を採用している。視覚的な3Dポイントオーバーラップ戦略は、マルチビューの監視のために、ポイントクラウドビューとRGBイメージの類似性を定量化するように設計されている。
論文参考訳（メタデータ） (2024-10-08T18:31:41Z)
LiteVLoc: Map-Lite Visual Localization for Image Goal Navigation [5.739362282280063]
LiteVLocは、環境を表現するために軽量のトポメトリックマップを使用する視覚的ローカライゼーションフレームワークである。学習に基づく特徴マッチングと幾何学的解法を利用して、メートル法ポーズ推定をすることで、ストレージオーバーヘッドを低減する。
論文参考訳（メタデータ） (2024-10-06T09:26:07Z)
Visual Localization in 3D Maps: Comparing Point Cloud, Mesh, and NeRF Representations [8.522160106746478]
様々な3次元地図表現にまたがる単一カメラ画像のローカライズが可能なグローバルな視覚的ローカライゼーションシステムを提案する。本システムは,シーンの新たなビューを合成し,RGBと深度画像のペアを作成することでデータベースを生成する。 NeRF合成画像は、クエリ画像を平均72%の成功率でローカライズし、優れた性能を示す。
論文参考訳（メタデータ） (2024-08-21T19:37:17Z)
Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。 PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文参考訳（メタデータ） (2024-07-26T06:29:09Z)
MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics [41.94295877935867]
マルチカメラのセットアップを活用し,マルチモーダル位置認識のための多様なデータソースを統合することの影響について検討する。提案手法は,複数のカメラ,LiDAR点雲,セマンティックセグメンテーションマスク,テキストアノテーションなどの画像を用いて,総合的な位置記述子を生成する。
論文参考訳（メタデータ） (2024-07-22T14:24:56Z)
AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文参考訳（メタデータ） (2024-07-11T03:18:53Z)
EgoVM: Achieving Precise Ego-Localization using Lightweight Vectorized Maps [9.450650025266379]
本稿では,従来の最先端手法に匹敵するローカライズ精度を実現するエンド・ツー・エンドのローカライズネットワークであるEgoVMを提案する。我々は、学習可能なセマンティック埋め込みを用いて、マップ要素のセマンティックタイプを符号化し、セマンティックセマンティックセグメンテーションでそれらを監督する。本研究では,頑健なヒストグラムに基づくポーズ解法を用いて,候補ポーズを徹底的に探索することで最適なポーズを推定する。
論文参考訳（メタデータ） (2023-07-18T06:07:25Z)
Semi-supervised Learning from Street-View Images and OpenStreetMap for Automatic Building Height Estimation [59.6553058160943]
本稿では,Mapillary SVIとOpenStreetMapのデータから建物の高さを自動的に推定する半教師付き学習(SSL)手法を提案する。提案手法は, 平均絶対誤差(MAE)が約2.1mである建物の高さを推定する上で, 明らかな性能向上につながる。予備結果は,低コストなVGIデータに基づく提案手法のスケールアップに向けた今後の取り組みを期待し,動機づけるものである。
論文参考訳（メタデータ） (2023-07-05T18:16:30Z)
BEV-Locator: An End-to-end Visual Semantic Localization Network Using Multi-View Images [13.258689143949912]
マルチビューカメラ画像を用いたエンドツーエンドの視覚的セマンティックローカライゼーションニューラルネットワークを提案する。 BEV-Locatorは、多目的シナリオ下での車両のポーズを推定することができる。実験では, 平均絶対誤差が0.052m, 0.135m, 0.251$circ$, 横方向, 縦方向の翻訳, 方向角の程度で満足な精度を報告した。
論文参考訳（メタデータ） (2022-11-27T20:24:56Z)
Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文参考訳（メタデータ） (2022-03-11T01:51:54Z)
TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。 TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文参考訳（メタデータ） (2021-11-14T19:01:02Z)
PANet: Perspective-Aware Network with Dynamic Receptive Fields and Self-Distilling Supervision for Crowd Counting [63.84828478688975]
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
論文参考訳（メタデータ） (2021-10-31T04:43:05Z)
PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文参考訳（メタデータ） (2020-11-25T11:03:11Z)
Rethinking Localization Map: Towards Accurate Object Perception with Self-Enhancement Maps [78.2581910688094]
本研究は, カテゴリーラベルのみを監督として, 正確な対象位置分布マップと対象境界を抽出する, 新たな自己強調手法を提案する。特に、提案されたセルフエンハンスメントマップは、ILSVRC上で54.88%の最先端のローカライゼーション精度を達成する。
論文参考訳（メタデータ） (2020-06-09T12:35:55Z)
High-Order Information Matters: Learning Relation and Topology for Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文参考訳（メタデータ） (2020-03-18T12:18:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。