論文の概要: Plan2Map: A Multimodal Benchmark for Document-Grounded Geospatial Boundary Reconstruction from Planning Records
- arxiv url: http://arxiv.org/abs/2606.02747v1
- Date: Mon, 01 Jun 2026 18:12:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.531158
- Title: Plan2Map: A Multimodal Benchmark for Document-Grounded Geospatial Boundary Reconstruction from Planning Records
- Title(参考訳): Plan2Map: 計画記録からの文書化された地理空間境界再構築のためのマルチモーダルベンチマーク
- Authors: Fabian Degen, Oishi Deb, Jindong Gu, Junchi Yu, Samuele Marro, Philip Torr, Jialin Yu,
- Abstract要約: Plan2Mapは、イギリスの計画記録から文書化された地理空間境界再構築のための208ケースのベンチマークである。
提案するGeoPlanAgentは,そのタスクをエビデンス抽出,ローカライゼーション,マップ登録,境界セグメンテーション,プロジェクション,検証に分解する。
Plan2Mapでは、GeoPlanAgentが0.736の平均IoUと0.904中央IoUを達成した。
- 参考スコア(独自算出の注目度): 47.07029078506607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Planning records define restrictions over geographic areas, but their source documents often provide only indirect spatial evidence rather than machine-readable boundaries. We introduce Plan2Map, a 208-case multimodal benchmark for document-grounded geospatial boundary reconstruction from UK planning records. Given only a source planning document, systems must reconstruct a valid geospatial boundary from notice text, schedules, map plates, map labels, and boundary annotations; the reference GeoJSON is held out for scoring. We propose GeoPlanAgent, a document-grounded, geospatial-tool-in-the-loop system that decomposes the task into evidence extraction, localisation, map registration, boundary segmentation, projection, and verification. On Plan2Map, GeoPlanAgent achieves 0.736 mean IoU and 0.904 median IoU, with 67.8\% of predictions at or above 0.8 IoU, substantially outperforming direct VLM-to-GeoJSON baselines. Diagnostic analysis shows that direct VLM prediction remains unreliable, while remaining errors are concentrated in localisation and map registration, and supervised boundary segmentation substantially improves pixel-level mask quality. Plan2Map provides a concrete testbed for multimodal geospatial reconstruction from public planning records. Project page: https://odeb1.github.io/Plan2Map_Project_Page/.
- Abstract(参考訳): 計画記録は地理的領域の制限を定義するが、その資料は機械可読境界よりも間接的な空間的証拠のみを提供することが多い。
我々は,208ケースのマルチモーダル・ベンチマークであるPlan2Mapを紹介した。
ソース計画文書のみを前提として、システムは、通知テキスト、スケジュール、マッププレート、マップラベル、境界アノテーションから有効な地理空間境界を再構築する必要がある。
提案するGeoPlanAgentは,そのタスクをエビデンス抽出,ローカライゼーション,マップ登録,境界セグメンテーション,プロジェクション,検証に分解する。
Plan2Mapでは、GeoPlanAgentが0.736の平均IoUと0.904中央IoUを達成した。
診断解析によると、直接VLM予測は信頼性が低いが、残差は局所化とマップ登録に集中しており、境界分割はピクセルレベルのマスク品質を大幅に改善している。
Plan2Mapは、公共計画記録からのマルチモーダル地理空間再構築のための具体的なテストベッドを提供する。
プロジェクトページ: https://odeb1.github.io/Plan2Map_Project_Page/。
関連論文リスト
- HisTrackMap: Global Vectorized High-Definition Map Construction via History Map Tracking [24.21124150354725]
本稿では,地図要素の履歴軌跡を時間的に追跡することで,新たなエンドツーエンド追跡フレームワークのグローバルマップ構築を提案する。
このトラッキングフレームワーク内にMap-Trajectory Prior Fusionモジュールを導入し、追跡されたインスタンスの過去の事前情報を活用して、時間的滑らかさと連続性を改善する。
nuScenesとArgoverse2データセットに関する実質的な実験により、提案手法は、単一フレームおよび時間メトリクスの両方において、最先端(SOTA)メソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-03-10T10:44:43Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - PRISM-TopoMap: Online Topological Mapping with Place Recognition and Scan Matching [42.74395278382559]
本稿では,局所的な位置のグラフを保持するトポロジカルマッピング手法であるPRISM-TopoMapを紹介する。
提案手法は,ローカライゼーションとループ閉鎖のために,スキャンマッチングパイプラインと組み合わせて学習可能なマルチモーダル位置認識を行う。
提案手法の広範な実験的評価を,写真リアリスティックな環境と実物ロボットを用いて行い,その技術状況と比較する。
論文 参考訳(メタデータ) (2024-04-02T06:25:16Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - Grid Cell-Inspired Fragmentation and Recall for Efficient Map Building [29.630483662400444]
本研究では,FARMap(Fragmentation-and-Recall)の概念を大規模空間のマッピングに適用する。
エージェントは、空間の仮定に基づくクラスタリングを通じて局所写像を構築することで、マッピング問題を解決する。
FARMapは動物実験で観察された断片化点を再現することを示した。
論文 参考訳(メタデータ) (2023-07-11T20:40:19Z) - MGeo: Multi-Modal Geographic Pre-Training Method [49.78466122982627]
マルチモーダルジオグラフィック言語モデル(MGeo)を提案する。
MGeoはGCを新しいモダリティとして表現し、正確なクエリ-POIマッチングのためのマルチモーダル相関を完全に抽出することができる。
提案するマルチモーダル事前学習法は,汎用PTMのクエリ-POIマッチング能力を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-11T03:05:12Z) - Rethinking Localization Map: Towards Accurate Object Perception with
Self-Enhancement Maps [78.2581910688094]
本研究は, カテゴリーラベルのみを監督として, 正確な対象位置分布マップと対象境界を抽出する, 新たな自己強調手法を提案する。
特に、提案されたセルフエンハンスメントマップは、ILSVRC上で54.88%の最先端のローカライゼーション精度を達成する。
論文 参考訳(メタデータ) (2020-06-09T12:35:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。