Fugu-MT 論文翻訳(概要): You are here! Finding position and orientation on a 2D map from a single image: The Flatlandia localization problem and dataset

論文の概要: You are here! Finding position and orientation on a 2D map from a single image: The Flatlandia localization problem and dataset

arxiv url: http://arxiv.org/abs/2304.06373v2
Date: Fri, 14 Apr 2023 09:28:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-17 10:30:32.084360
Title: You are here! Finding position and orientation on a 2D map from a single image: The Flatlandia localization problem and dataset
Title（参考訳）: あなたはここにいる! 1枚の画像から2次元地図上の位置と向きを見つける -flatlandia localization problem と dataset
Authors: Matteo Toso, Matteo Taiana, Stuart James and Alessio Del Bue
Abstract要約: 2つのタスクからなる物体検出から画像の視覚的位置決めを行う新しい問題であるFlatlandiaを紹介した。われわれはFlatlandiaデータセットを提供し、複数の都市環境における3DoF視覚的ローカライゼーションのために設計され、5つのヨーロッパの都市からクラウドソースされたデータに基づいている。
参考スコア（独自算出の注目度）: 14.611595909419297
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We introduce Flatlandia, a novel problem for visual localization of an image from object detections composed of two specific tasks: i) Coarse Map Localization: localizing a single image observing a set of objects in respect to a 2D map of object landmarks; ii) Fine-grained 3DoF Localization: estimating latitude, longitude, and orientation of the image within a 2D map. Solutions for these new tasks exploit the wide availability of open urban maps annotated with GPS locations of common objects (\eg via surveying or crowd-sourced). Such maps are also more storage-friendly than standard large-scale 3D models often used in visual localization while additionally being privacy-preserving. As existing datasets are unsuited for the proposed problem, we provide the Flatlandia dataset, designed for 3DoF visual localization in multiple urban settings and based on crowd-sourced data from five European cities. We use the Flatlandia dataset to validate the complexity of the proposed tasks.
Abstract（参考訳）: そこで本稿では,2つのタスクからなる物体検出から画像の可視化問題であるflatlandiaを提案する。一粗い地図の定位:被写体の集合を観察する単一の画像を、被写体ランドマークの2次元地図に配置すること。二微粒な3DoF局所化:2次元地図内の画像の緯度、経度及び方位を推定すること。これらの新しいタスクのソリューションは、一般的なオブジェクトのGPSロケーション(サーベイやクラウドソースによる)にアノテートされたオープンアーバンマップを広範囲に活用する。このようなマップは、通常の大規模3Dモデルよりもストレージフレンドリーで、視覚的なローカライゼーションによく使われる。既存のデータセットは、提案された問題に適さないため、複数の都市で3DoFの視覚的ローカライゼーション用に設計され、5つのヨーロッパの都市からのクラウドソースデータに基づいているFlatlandiaデータセットを提供する。 flatlandiaデータセットを使用して,提案するタスクの複雑性を検証する。

関連論文リスト

Multiview Scene Graph [7.460438046915524]
適切なシーン表現は、空間知性の追求の中心である。未提示画像からマルチビューシーングラフ(MSG)を構築することを提案する。 MSGは、場所とオブジェクトノードを相互接続したシーンをトポロジ的に表現する。
論文参考訳（メタデータ） (2024-10-15T02:04:05Z)
SplatLoc: 3D Gaussian Splatting-based Visual Localization for Augmented Reality [50.179377002092416]
より少ないパラメータで高品質なレンダリングが可能な効率的なビジュアルローカライズ手法を提案する。提案手法は,最先端の暗黙的視覚的ローカライゼーションアプローチに対して,より優れた,あるいは同等なレンダリングとローカライゼーション性能を実現する。
論文参考訳（メタデータ） (2024-09-21T08:46:16Z)
Visual Localization in 3D Maps: Comparing Point Cloud, Mesh, and NeRF Representations [8.522160106746478]
様々な3次元地図表現にまたがる単一カメラ画像のローカライズが可能なグローバルな視覚的ローカライゼーションシステムを提案する。本システムは,シーンの新たなビューを合成し,RGBと深度画像のペアを作成することでデータベースを生成する。 NeRF合成画像は、クエリ画像を平均72%の成功率でローカライズし、優れた性能を示す。
論文参考訳（メタデータ） (2024-08-21T19:37:17Z)
MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文参考訳（メタデータ） (2024-06-13T17:59:30Z)
GLACE: Global Local Accelerated Coordinate Encoding [66.87005863868181]
シーン座標回帰法は小規模なシーンでは有効であるが、大規模シーンでは重大な課題に直面している。本研究では,事前学習したグローバルおよびローカルのエンコーディングを統合したGLACEを提案する。提案手法は,低マップサイズモデルを用いて,大規模シーンにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-06-06T17:59:50Z)
ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文参考訳（メタデータ） (2023-11-29T20:30:18Z)
Image-based Geolocalization by Ground-to-2.5D Map Matching [21.21416396311102]
地上視のクエリ画像と2Dマップをマッチングするために、クロスビューのローカライゼーション技術を利用することが多い。マルチモーダルデータから代表埋め込みを学習するための新しい手法を提案する。本手法は,重要な幾何学的手がかりを符号化することにより,パノラマ画像と地図のマッチングのための識別的位置埋め込みを学習する。
論文参考訳（メタデータ） (2023-08-11T08:00:30Z)
Visual Localization using Imperfect 3D Models from the Internet [54.731309449883284]
本稿では,3次元モデルにおける欠陥が局所化精度に与える影響について検討する。インターネットから得られる3Dモデルは、容易に表現できるシーン表現として有望であることを示す。
論文参考訳（メタデータ） (2023-04-12T16:15:05Z)
CrowdDriven: A New Challenging Dataset for Outdoor Visual Localization [44.97567243883994]
クラウドソースデータを用いた屋外シーンにおける視覚的位置推定のための新しいベンチマークを提案する。私たちのデータセットは非常に困難で、評価されたすべてのメソッドが最も難しい部分で失敗していることが示されています。データセットリリースの一部として、私たちはそれを生成するために使用されるツールを提供し、効率的で効果的な2D対応アノテーションを可能にします。
論文参考訳（メタデータ） (2021-09-09T19:25:48Z)
Learning Cross-Scale Visual Representations for Real-Time Image Geo-Localization [21.375640354558044]
局所センサに基づく状態推定手法は、誤差が蓄積されるにつれて長距離ミッションがドリフトする傾向にある。クロススケールなデータセットと、クロスモダリティソースから追加データを生成する手法を紹介する。本稿では,監督なしに大規模視覚表現を学習するフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-09T08:08:54Z)
PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文参考訳（メタデータ） (2020-11-25T11:03:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。