論文の概要: GEO-Bench-2: From Performance to Capability, Rethinking Evaluation in Geospatial AI
- arxiv url: http://arxiv.org/abs/2511.15658v1
- Date: Wed, 19 Nov 2025 17:45:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.92869
- Title: GEO-Bench-2: From Performance to Capability, Rethinking Evaluation in Geospatial AI
- Title(参考訳): GEO-Bench-2: パフォーマンスから能力へ、地理空間AIの評価を再考する
- Authors: Naomi Simumba, Nils Lehmann, Paolo Fraccaro, Hamed Alemohammad, Geeth De Mel, Salman Khan, Manil Maskey, Nicolas Longepe, Xiao Xiang Zhu, Hannah Kerner, Juan Bernabe-Moreno, Alexander Lacoste,
- Abstract要約: GeoFMは地球観測を変革しているが、評価には標準化されたプロトコルが欠けている。
GEO-Bench-2は、分類、セグメンテーション、回帰、オブジェクト検出、インスタンスセグメンテーションにまたがる包括的なフレームワークでこの問題に対処する。
GEO-Bench-2のコード、データ、およびリーダーボードは、パーミッシブライセンスの下で公開されている。
- 参考スコア(独自算出の注目度): 52.13138825802668
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Geospatial Foundation Models (GeoFMs) are transforming Earth Observation (EO), but evaluation lacks standardized protocols. GEO-Bench-2 addresses this with a comprehensive framework spanning classification, segmentation, regression, object detection, and instance segmentation across 19 permissively-licensed datasets. We introduce ''capability'' groups to rank models on datasets that share common characteristics (e.g., resolution, bands, temporality). This enables users to identify which models excel in each capability and determine which areas need improvement in future work. To support both fair comparison and methodological innovation, we define a prescriptive yet flexible evaluation protocol. This not only ensures consistency in benchmarking but also facilitates research into model adaptation strategies, a key and open challenge in advancing GeoFMs for downstream tasks. Our experiments show that no single model dominates across all tasks, confirming the specificity of the choices made during architecture design and pretraining. While models pretrained on natural images (ConvNext ImageNet, DINO V3) excel on high-resolution tasks, EO-specific models (TerraMind, Prithvi, and Clay) outperform them on multispectral applications such as agriculture and disaster response. These findings demonstrate that optimal model choice depends on task requirements, data modalities, and constraints. This shows that the goal of a single GeoFM model that performs well across all tasks remains open for future research. GEO-Bench-2 enables informed, reproducible GeoFM evaluation tailored to specific use cases. Code, data, and leaderboard for GEO-Bench-2 are publicly released under a permissive license.
- Abstract(参考訳): Geospatial Foundation Models (GeoFMs) は地球観測 (EO) を変革しているが、評価には標準化されたプロトコルが欠けている。
GEO-Bench-2は、分類、セグメンテーション、回帰、オブジェクト検出、19のパーミッションライセンスデータセットにわたるインスタンスセグメンテーションを対象とする包括的なフレームワークでこの問題に対処する。
共通の特徴(例えば、解像度、バンド、時間性)を共有するデータセットのモデルをランク付けするために、'能力'グループを導入します。
これにより、ユーザーは各機能でどのモデルが優れているかを識別し、将来の作業でどの領域に改善が必要なのかを決定することができる。
公正比較と方法論的革新の両方をサポートするために,我々は規範的かつ柔軟な評価プロトコルを定義する。
これはベンチマークにおける一貫性を保証するだけでなく、モデル適応戦略の研究を促進する。
私たちの実験では、アーキテクチャ設計と事前学習において選択された選択の特異性を確認するため、すべてのタスクで1つのモデルが支配的でないことが示されています。
自然画像に事前訓練されたモデル(ConvNext ImageNet, DINO V3)は高精細なタスクに優れるが、EO特有のモデル(TerraMind, Prithvi, Clay)は農業や災害対応といったマルチスペクトルのアプリケーションよりも優れている。
これらの結果は、最適なモデル選択がタスク要求、データモダリティ、制約に依存することを示している。
このことは、全てのタスクでうまく機能する単一のGeoFMモデルの目標は、将来の研究に向けてオープンなままであることを示している。
GEO-Bench-2は、特定のユースケースに合わせて、情報的かつ再現可能なGeoFM評価を可能にする。
GEO-Bench-2のコード、データ、およびリーダーボードは、パーミッシブライセンスの下で公開されている。
関連論文リスト
- Deploying Geospatial Foundation Models in the Real World: Lessons from WorldCereal [25.756741188074862]
本稿では,地空間基盤モデルを運用マッピングシステムに統合するための構造的アプローチを提案する。
私たちのプロトコルには、アプリケーション要件の定義、ドメイン固有のデータへのモデルの適用、厳密な経験的テストの実行という、3つの重要なステップがあります。
結果は、モデルの強い空間的および時間的一般化能力を強調する。
論文 参考訳(メタデータ) (2025-07-16T15:10:32Z) - HyBiomass: Global Hyperspectral Imagery Benchmark Dataset for Evaluating Geospatial Foundation Models in Forest Aboveground Biomass Estimation [1.0408909053766147]
本研究では,森林表層バイオマス(AGB)推定のためのグローバル分散ベンチマークデータセットを提案する。
このベンチマークデータセットは、環境マッピング・分析プログラム(EnMAP)衛星からのHSIと、AGB密度推定の予測を組み合わせたものである。
このデータセットを用いた実験結果から,評価されたGeo-FMがベースラインU-Netの性能を上回り得るか,場合によっては超えることを示した。
論文 参考訳(メタデータ) (2025-06-12T21:29:20Z) - PANGAEA: A Global and Inclusive Benchmark for Geospatial Foundation Models [3.9031647202359667]
PANGAEAは標準化された評価プロトコルであり、さまざまなデータセット、タスク、解像度、センサーのモダリティ、時間性をカバーする。
我々は、このベンチマークで利用可能な最も人気のあるGFMを評価し、その性能を複数のドメインで分析する。
本研究は, GFMの限界を, 異なるシナリオ下で強調し, 教師付きモデルよりも常に優れていないことを示した。
論文 参考訳(メタデータ) (2024-12-05T14:40:41Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - GOMAA-Geo: GOal Modality Agnostic Active Geo-localization [49.599465495973654]
エージェントが空中ナビゲーション中に観測された一連の視覚的手がかりを用いて、複数の可能なモダリティによって特定されたターゲットを見つけるという、アクティブなジオローカライゼーション(AGL)の課題を考察する。
GOMAA-Geo は、ゴールモダリティ間のゼロショット一般化のためのゴールモダリティアクティブなジオローカライゼーションエージェントである。
論文 参考訳(メタデータ) (2024-06-04T02:59:36Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - OpenGDA: Graph Domain Adaptation Benchmark for Cross-network Learning [42.48479966907126]
OpenGDAはグラフ領域適応モデルを評価するためのベンチマークである。
さまざまなタスクに対して、豊富な事前処理と統合されたデータセットを提供する。
最先端のモデルと標準化されたパイプラインとエンドツーエンドのパイプラインを統合する。
論文 参考訳(メタデータ) (2023-07-21T04:11:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。