論文の概要: GeoX-Bench: Benchmarking Cross-View Geo-Localization and Pose Estimation Capabilities of Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2511.13259v1
- Date: Mon, 17 Nov 2025 11:19:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.159764
- Title: GeoX-Bench: Benchmarking Cross-View Geo-Localization and Pose Estimation Capabilities of Large Multimodal Models
- Title(参考訳): GeoX-Bench:大規模マルチモーダルモデルのクロスビュージオローカライゼーションとポース推定能力のベンチマーク
- Authors: Yushuo Zheng, Jiangyong Ying, Huiyu Duan, Chunyi Li, Zicheng Zhang, Jing Liu, Xiaohong Liu, Guangtao Zhai,
- Abstract要約: GeoX-BenchはLMMの機能を調べ評価するために設計された総合的なアンダーラインベンチマークである。
49カ国の128都市にまたがる10,859枚のパノラマ・サテライトイメージペアと、対応する755,976個の質問回答(QA)ペアを含んでいる。
GeoX-Benchに基づいて,25の最先端LMMがクロスビューなジオローカライゼーションおよびポーズ推定タスクに与える影響を評価する。
- 参考スコア(独自算出の注目度): 78.98542840563907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large multimodal models (LMMs) have demonstrated remarkable capabilities across a wide range of tasks, however their knowledge and abilities in the cross-view geo-localization and pose estimation domains remain unexplored, despite potential benefits for navigation, autonomous driving, outdoor robotics, \textit{etc}. To bridge this gap, we introduce \textbf{GeoX-Bench}, a comprehensive \underline{Bench}mark designed to explore and evaluate the capabilities of LMMs in \underline{cross}-view \underline{Geo}-localization and pose estimation. Specifically, GeoX-Bench contains 10,859 panoramic-satellite image pairs spanning 128 cities in 49 countries, along with corresponding 755,976 question-answering (QA) pairs. Among these, 42,900 QA pairs are designated for benchmarking, while the remaining are intended to enhance the capabilities of LMMs. Based on GeoX-Bench, we evaluate the capabilities of 25 state-of-the-art LMMs on cross-view geo-localization and pose estimation tasks, and further explore the empowered capabilities of instruction-tuning. Our benchmark demonstrate that while current LMMs achieve impressive performance in geo-localization tasks, their effectiveness declines significantly on the more complex pose estimation tasks, highlighting a critical area for future improvement, and instruction-tuning LMMs on the training data of GeoX-Bench can significantly improve the cross-view geo-sense abilities. The GeoX-Bench is available at \textcolor{magenta}{https://github.com/IntMeGroup/GeoX-Bench}.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、幅広いタスクにおいて顕著な能力を示してきたが、ナビゲーション、自律運転、アウトドアロボティクス、 \textit{etc} の潜在的な利点にもかかわらず、クロスビューなジオローカライゼーションとポーズ推定領域における知識と能力は未探索のままである。
このギャップを埋めるために、我々は \textbf{GeoX-Bench} という総合的な \underline{Bench} マークを導入し、 \underline{cross}-view \underline{Geo}-局在化とポーズ推定において LMM の能力を探索し評価する。
特にGeoX-Benchは、49カ国の128都市にまたがるパノラマ・サテライト画像ペア10,859枚と、対応する755,976個の質問回答(QA)ペアを含んでいる。
そのうち42,900組のQAペアはベンチマーク用に指定され、残りはLMMの能力を高めることを意図している。
GeoX-Benchに基づいて,クロスビューなジオローカライゼーションとポーズ推定タスクにおける25の最先端LMMの性能を評価し,さらに指導訓練の能力について検討する。
我々のベンチマークでは、現在のLMMは地理的局所化タスクにおいて顕著な性能を発揮するが、その効果はより複雑なポーズ推定タスクにおいて著しく低下し、将来の改善に向けて重要な領域が強調され、GeoX-Benchのトレーニングデータに対する指導学習LMMは、クロスビューなジオセンス能力を大幅に向上させることができることを示した。
GeoX-Bench は \textcolor{magenta}{https://github.com/IntMeGroup/GeoX-Bench} で入手できる。
関連論文リスト
- HyBiomass: Global Hyperspectral Imagery Benchmark Dataset for Evaluating Geospatial Foundation Models in Forest Aboveground Biomass Estimation [1.0408909053766147]
本研究では,森林表層バイオマス(AGB)推定のためのグローバル分散ベンチマークデータセットを提案する。
このベンチマークデータセットは、環境マッピング・分析プログラム(EnMAP)衛星からのHSIと、AGB密度推定の予測を組み合わせたものである。
このデータセットを用いた実験結果から,評価されたGeo-FMがベースラインU-Netの性能を上回り得るか,場合によっては超えることを示した。
論文 参考訳(メタデータ) (2025-06-12T21:29:20Z) - Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - Charting New Territories: Exploring the Geographic and Geospatial
Capabilities of Multimodal LLMs [35.86744469804952]
MLLM(Multimodal large language model)は、幅広いタスクにおいて顕著な能力を示しているが、地理的および地理空間領域におけるその知識と能力はまだ研究されていない。
我々はこれらの領域におけるMLLMの様々な視覚能力を探索する一連の実験を行い、特にフロンティアモデル GPT-4V に注目した。
我々の手法は、視覚的なタスクからなる小さなベンチマークでこれらのモデルに挑戦し、その能力を様々な複雑さでテストする。
論文 参考訳(メタデータ) (2023-11-24T18:46:02Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。