論文の概要: Maps from Motion (MfM): Generating 2D Semantic Maps from Sparse Multi-view Images
- arxiv url: http://arxiv.org/abs/2411.12620v2
- Date: Fri, 22 Nov 2024 11:29:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 12:05:44.508604
- Title: Maps from Motion (MfM): Generating 2D Semantic Maps from Sparse Multi-view Images
- Title(参考訳): 動きからのマップ(MfM):スパース多視点画像から2次元セマンティックマップを生成する
- Authors: Matteo Toso, Stefano Fiorini, Stuart James, Alessio Del Bue,
- Abstract要約: OpenStreetMapは、1100万人の登録ユーザーが手動でGPSの位置情報に157億以上のエントリをアノテートした結果である。
同時に、手動のアノテーションにはエラーが含まれ、更新が遅く、マップの精度が制限される。
動きからのマップ (MfM) は、非校正された多視点画像のコレクションから直接意味オブジェクトの2Dマップを計算することにより、そのような時間を要する地図作成手順を自動化するためのステップである。
- 参考スコア(独自算出の注目度): 17.992488467380923
- License:
- Abstract: World-wide detailed 2D maps require enormous collective efforts. OpenStreetMap is the result of 11 million registered users manually annotating the GPS location of over 1.75 billion entries, including distinctive landmarks and common urban objects. At the same time, manual annotations can include errors and are slow to update, limiting the map's accuracy. Maps from Motion (MfM) is a step forward to automatize such time-consuming map making procedure by computing 2D maps of semantic objects directly from a collection of uncalibrated multi-view images. From each image, we extract a set of object detections, and estimate their spatial arrangement in a top-down local map centered in the reference frame of the camera that captured the image. Aligning these local maps is not a trivial problem, since they provide incomplete, noisy fragments of the scene, and matching detections across them is unreliable because of the presence of repeated pattern and the limited appearance variability of urban objects. We address this with a novel graph-based framework, that encodes the spatial and semantic distribution of the objects detected in each image, and learns how to combine them to predict the objects' poses in a global reference system, while taking into account all possible detection matches and preserving the topology observed in each image. Despite the complexity of the problem, our best model achieves global 2D registration with an average accuracy within 4 meters (i.e., below GPS accuracy) even on sparse sequences with strong viewpoint change, on which COLMAP has an 80% failure rate. We provide extensive evaluation on synthetic and real-world data, showing how the method obtains a solution even in scenarios where standard optimization techniques fail.
- Abstract(参考訳): 世界規模で詳細な2Dマップを作るには膨大な努力が必要だ。
OpenStreetMapは1100万人の登録ユーザーが手動でGPSの位置情報を注釈付けし、75億件以上の項目が記録されている。
同時に、手動のアノテーションにはエラーが含まれ、更新が遅く、マップの精度が制限される。
動きからのマップ (MfM) は、非校正された多視点画像のコレクションから直接意味オブジェクトの2Dマップを計算することにより、そのような時間を要する地図作成手順を自動化するためのステップである。
各画像からオブジェクト検出の集合を抽出し、画像をキャプチャしたカメラの参照フレームを中心としたトップダウンのローカルマップでそれらの空間配置を推定する。
これらのローカルマップの調整は、シーンの不完全でノイズの多い断片を提供するため、簡単な問題ではない。
本研究では,各画像に検出された物体の空間的および意味的な分布を符号化したグラフベースの新しいフレームワークを用いてこの問題に対処し,その組み合わせによりグローバル参照システムにおけるオブジェクトのポーズを予測し,すべての検出マッチを考慮し,各画像で観測されたトポロジを保存する。
問題の複雑さにもかかわらず、我々の最良のモデルは、COLMAPが80%の故障率を持つ強い視点変化を持つスパースシーケンスであっても、平均精度で4m以内(GPS精度以下)でグローバルな2D登録を実現する。
提案手法は,標準的な最適化手法が失敗するシナリオにおいても,どのように解が得られるかを示す。
関連論文リスト
- Local All-Pair Correspondence for Point Tracking [59.76186266230608]
ビデオシーケンス間の任意の点(TAP)を追跡するタスクのために設計された,高精度かつ効率的なモデルであるLocoTrackを紹介する。
LocoTrackは、すべてのTAP-Vidベンチマークで未整合の精度を実現し、現在の最先端の約6倍の速度で動作している。
論文 参考訳(メタデータ) (2024-07-22T06:49:56Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Mobile Mapping Mesh Change Detection and Update [0.0]
品質,カバレッジ,取得時間が異なるメッシュをマージする問題に対処する,完全な自動パイプラインを提案する。
提案手法は,距離と視認性に基づく変化検出,変化の持続可能性を評価する時系列解析,大域的最適化に基づくメッシュモザイキングに基づく。
論文 参考訳(メタデータ) (2023-03-13T15:24:06Z) - Sparse Semantic Map-Based Monocular Localization in Traffic Scenes Using
Learned 2D-3D Point-Line Correspondences [29.419138863851526]
クエリー画像が与えられた場合、カメラのポーズが先行マップに対応すると見積もることが目的である。
既存のアプローチは、登録問題を解決するために、機能レベルでの高密度な点記述子に大きく依存している。
本稿では,よく設計されたディープニューラルネットワークを用いて2D-3D登録を行う,スパースセマンティックマップに基づく単眼位置推定法を提案する。
論文 参考訳(メタデータ) (2022-10-10T10:29:07Z) - Visual Cross-View Metric Localization with Dense Uncertainty Estimates [11.76638109321532]
本研究は、屋外ロボティクスにおける視覚的クロスビューメトリックローカライゼーションに対処する。
地上レベルのカラー画像と局地的な環境を含む衛星パッチが与えられた場合、衛星パッチ内の地上カメラの位置を特定することが課題である。
我々は、より高密度な衛星記述子、ボトルネックにおける類似性マッチング、およびマルチモーダルなローカライゼーションの曖昧さを捉えるための出力としての密度空間分布を備えた新しいネットワークアーキテクチャを考案した。
論文 参考訳(メタデータ) (2022-08-17T20:12:23Z) - Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization
Using Satellite Image [91.29546868637911]
本稿では,地上画像と架空衛星地図とをマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。
鍵となる考え方は、タスクをポーズ推定として定式化し、ニューラルネットベースの最適化によってそれを解くことである。
標準自動運転車のローカライゼーションデータセットの実験により,提案手法の優位性が確認された。
論文 参考訳(メタデータ) (2022-04-10T19:16:58Z) - Automatic Map Update Using Dashcam Videos [1.6911482053867475]
実時間変化検出と局所化に着目したSfMベースの自動マップ更新ソリューションを提案する。
本システムでは,スパースSfM点雲を用いて,2次元画像から検出した物体を3次元空間内に検出することができる。
論文 参考訳(メタデータ) (2021-09-24T18:00:57Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z) - Multiview Detection with Feature Perspective Transformation [59.34619548026885]
本稿では,新しいマルチビュー検出システムMVDetを提案する。
我々は,平面上に特徴写像を投影することで,多視点情報を集約するアンカーフリーアプローチを採っている。
私たちのモデル全体がエンドツーエンドで学習可能で、標準のWildtrackデータセットで88.2%のMODAを実現しています。
論文 参考訳(メタデータ) (2020-07-14T17:58:30Z) - Rethinking Localization Map: Towards Accurate Object Perception with
Self-Enhancement Maps [78.2581910688094]
本研究は, カテゴリーラベルのみを監督として, 正確な対象位置分布マップと対象境界を抽出する, 新たな自己強調手法を提案する。
特に、提案されたセルフエンハンスメントマップは、ILSVRC上で54.88%の最先端のローカライゼーション精度を達成する。
論文 参考訳(メタデータ) (2020-06-09T12:35:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。