論文の概要: PANGAEA: A Global and Inclusive Benchmark for Geospatial Foundation Models
- arxiv url: http://arxiv.org/abs/2412.04204v1
- Date: Thu, 05 Dec 2024 14:40:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:40:40.224369
- Title: PANGAEA: A Global and Inclusive Benchmark for Geospatial Foundation Models
- Title(参考訳): PANGAEA - 地理空間モデルのためのグローバルかつ包括的なベンチマーク
- Authors: Valerio Marsocci, Yuru Jia, Georges Le Bellier, David Kerekes, Liang Zeng, Sebastian Hafner, Sebastian Gerard, Eric Brune, Ritu Yadav, Ali Shibli, Heng Fang, Yifang Ban, Maarten Vergauwen, Nicolas Audebert, Andrea Nascetti,
- Abstract要約: PANGAEAは標準化された評価プロトコルであり、さまざまなデータセット、タスク、解像度、センサーのモダリティ、時間性をカバーする。
我々は、このベンチマークで利用可能な最も人気のあるGFMを評価し、その性能を複数のドメインで分析する。
本研究は, GFMの限界を, 異なるシナリオ下で強調し, 教師付きモデルよりも常に優れていないことを示した。
- 参考スコア(独自算出の注目度): 3.9031647202359667
- License:
- Abstract: Geospatial Foundation Models (GFMs) have emerged as powerful tools for extracting representations from Earth observation data, but their evaluation remains inconsistent and narrow. Existing works often evaluate on suboptimal downstream datasets and tasks, that are often too easy or too narrow, limiting the usefulness of the evaluations to assess the real-world applicability of GFMs. Additionally, there is a distinct lack of diversity in current evaluation protocols, which fail to account for the multiplicity of image resolutions, sensor types, and temporalities, which further complicates the assessment of GFM performance. In particular, most existing benchmarks are geographically biased towards North America and Europe, questioning the global applicability of GFMs. To overcome these challenges, we introduce PANGAEA, a standardized evaluation protocol that covers a diverse set of datasets, tasks, resolutions, sensor modalities, and temporalities. It establishes a robust and widely applicable benchmark for GFMs. We evaluate the most popular GFMs openly available on this benchmark and analyze their performance across several domains. In particular, we compare these models to supervised baselines (e.g. UNet and vanilla ViT), and assess their effectiveness when faced with limited labeled data. Our findings highlight the limitations of GFMs, under different scenarios, showing that they do not consistently outperform supervised models. PANGAEA is designed to be highly extensible, allowing for the seamless inclusion of new datasets, models, and tasks in future research. By releasing the evaluation code and benchmark, we aim to enable other researchers to replicate our experiments and build upon our work, fostering a more principled evaluation protocol for large pre-trained geospatial models. The code is available at https://github.com/VMarsocci/pangaea-bench.
- Abstract(参考訳): 地球空間基盤モデル(GFM)は、地球観測データから表現を抽出する強力なツールとして登場したが、その評価は相容れない、狭いままである。
既存の作業は、しばしば最適な下流データセットやタスクに基づいて評価されるが、これはしばしば簡単すぎるか狭すぎるため、GFMの実際の適用性を評価するための評価の有用性が制限される。
さらに、画像解像度、センサタイプ、時間性の多重性を考慮せず、GFM性能の評価をさらに複雑にする、現在の評価プロトコルには、明らかに多様性の欠如がある。
特に、既存のベンチマークのほとんどは、GFMのグローバルな適用性に疑問を呈し、地理的に北アメリカとヨーロッパに偏っている。
これらの課題を克服するために、さまざまなデータセット、タスク、解像度、センサーのモダリティ、時間性をカバーする標準化された評価プロトコルであるPANGAEAを紹介します。
GFMの堅牢で広く適用可能なベンチマークを確立する。
我々は、このベンチマークで利用可能な最も人気のあるGFMを評価し、その性能を複数のドメインで分析する。
特に,これらのモデルと教師付きベースライン(例えばUNetやVanilla ViT)を比較し,ラベル付きデータに制限された場合の有効性を評価する。
本研究は, GFMの限界を, 異なるシナリオ下で強調し, 教師付きモデルよりも常に優れていないことを示した。
PANGAEAは高度に拡張可能なように設計されており、将来の研究に新たなデータセット、モデル、タスクをシームレスに組み込むことができる。
評価コードとベンチマークを公開することにより、他の研究者が実験を再現し、我々の研究の上に構築できるようにすることを目標とし、大規模で事前訓練された地理空間モデルのためのより原則化された評価プロトコルを育成する。
コードはhttps://github.com/VMarsocci/pangaea-bench.comで公開されている。
関連論文リスト
- Local vs. Global Models for Hierarchical Forecasting [0.0]
本研究では,情報活用が階層的予測の精度に与える影響について検討する。
我々は,クロスシリーズとクロス階層情報を活用するために,グローバル予測モデル(GFM)を開発した。
LightGBM に基づく2つの特定の GFM が導入された。
論文 参考訳(メタデータ) (2024-11-10T08:51:49Z) - LangGFM: A Large Language Model Alone Can be a Powerful Graph Foundation Model [27.047809869136458]
グラフ基礎モデル(GFM)が最近注目を集めている。
現在の研究は、グラフ学習タスクの特定のサブセットに焦点を当てる傾向がある。
GFMBenchは26のデータセットからなる体系的で包括的なベンチマークである。
また,大規模言語モデルに完全に依存する新しいGFMであるLangGFMを紹介する。
論文 参考訳(メタデータ) (2024-10-19T03:27:19Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - AUPIMO: Redefining Visual Anomaly Detection Benchmarks with High Speed and Low Tolerance [0.562479170374811]
Per-IMage Overlap(PIMO)は、AUROCとAUPROの欠点に対処する新しいメトリクスである。
画像ごとのリコールの測定は、計算を単純化し、ノイズの多いアノテーションに対してより堅牢である。
実験の結果,PIMOは実用的優位性があり,性能の見識に乏しいことがわかった。
論文 参考訳(メタデータ) (2024-01-03T21:24:44Z) - Challenging the Myth of Graph Collaborative Filtering: a Reasoned and Reproducibility-driven Analysis [50.972595036856035]
本稿では,6つの人気グラフと最近のグラフ推薦モデルの結果を再現するコードを提案する。
これらのグラフモデルと従来の協調フィルタリングモデルを比較する。
ユーザの近所からの情報フローを調べることにより,データセット構造における内在的特徴にどのようなモデルが影響するかを同定することを目的とする。
論文 参考訳(メタデータ) (2023-08-01T09:31:44Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Firenze: Model Evaluation Using Weak Signals [5.723905680436377]
本稿では,機械学習モデルの性能比較のための新しいフレームワークFirenzeを紹介する。
興味領域と呼ばれるサンプルの特定のサブセットに対して計算・結合されたマーカーは、実世界のパフォーマンスを頑健に見積もることができることを示す。
論文 参考訳(メタデータ) (2022-07-02T13:20:38Z) - On Certifying and Improving Generalization to Unseen Domains [87.00662852876177]
ドメインの一般化は、テスト時に遭遇した見知らぬドメインのパフォーマンスが高いモデルを学ぶことを目的としています。
いくつかのベンチマークデータセットを使用して、DGアルゴリズムを包括的に評価することは困難である。
我々は,任意のDG手法の最悪の性能を効率的に証明できる普遍的な認証フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-24T16:29:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。