論文の概要: EarthShift: a benchmark for measuring robustness to real-world distribution shifts in Earth observation
- arxiv url: http://arxiv.org/abs/2605.29330v1
- Date: Thu, 28 May 2026 04:06:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.659853
- Title: EarthShift: a benchmark for measuring robustness to real-world distribution shifts in Earth observation
- Title(参考訳): 地球シフト:地球観測における実世界の分布変化に対するロバスト性を測定するためのベンチマーク
- Authors: Kelsey Doerksen, Hannah Kerner,
- Abstract要約: EarthShiftは、リモートセンシングにおける現実的な分散シフトをまたいだ堅牢性をベンチマークする最初の公開テストベッドです。
実験の結果, モデルアーキテクチャ, サイズ, 事前学習, 微調整戦略によらず, GFMは平均で15~20%のアウト・オブ・ディストリビューションを行うことがわかった。
このことは、EarthShiftを使ってベンチマークできるパフォーマンスだけでなく、分散ロバスト性を改善するための将来の研究の必要性を強調している。
- 参考スコア(独自算出の注目度): 10.357172510221021
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current Earth observation benchmarks focus on measuring performance on diverse tasks and applications, typically measuring generalization in-distribution. But when models are deployed, they must generalize to myriad out-of-distribution scenarios, such as new time periods, geographies, scales, and sensors. We introduce EarthShift: the first public testbed for benchmarking robustness across multiple realistic distribution shifts encountered in remote sensing. EarthShift enables users to measure distributional robustness by comparing performance in- and out-of-distribution using datasets from paired datasets from different sources, temporal windows, geographic locations, and sensors. Our experiments on 8 geospatial foundation models (GFMs) and 11 tasks covering 5 shift types show that GFMs consistently perform 15-20% worse out-of-distribution on average regardless of model architecture, size, pre-training or fine-tuning strategy. We show that GFM robustness is similar to that of generic vision foundation models, and even fully-supervised models. This highlights a need for future research to strive for improvements in distributional robustness, not just performance, which can be benchmarked using EarthShift. We release our code and datasets to provide a testbed to guide future work to create foundation models that are robust and reliable in real-world applications. Code and data for EarthShift are available at: https://earthshift.github.io
- Abstract(参考訳): 現在の地球観測ベンチマークでは、様々なタスクやアプリケーションのパフォーマンスの測定に焦点が当てられている。
しかし、モデルがデプロイされると、新しい時間帯、地理、スケール、センサーなど、無数の配布シナリオに一般化する必要があります。
EarthShiftは、リモートセンシングで遭遇した複数の現実的な分散シフトに対して堅牢性をベンチマークする最初の公開テストベッドである。
EarthShiftでは、異なるソース、時間的ウィンドウ、地理的位置、センサーのペアデータセットを使用して、パフォーマンスのイン・オブ・アウト・ディストリビューションを比較することで、分散ロバスト性を測定することができる。
8つの地理空間基盤モデル(GFM)と5つのシフトタイプをカバーする11のタスクに関する実験により、GFMはモデルアーキテクチャ、サイズ、事前学習、微調整戦略にかかわらず、平均15~20%のアウト・オブ・ディストリビューションを連続的に実行していることが示された。
GFMのロバスト性は、一般的な視覚基盤モデルや完全な教師付きモデルと類似していることが示される。
このことは、EarthShiftを使ってベンチマークできるパフォーマンスだけでなく、分散ロバスト性を改善するための将来の研究の必要性を強調している。
コードとデータセットを公開して、将来の作業をガイドして、現実のアプリケーションで堅牢で信頼性の高い基盤モデルを作成するためのテストベッドを提供しています。
EarthShiftのコードとデータについては、https://earthshift.github.io.comで公開されている。
関連論文リスト
- Earth System Foundation Model (ESFM): A unified framework for heterogeneous data integration and forecasting [52.53742727060265]
地球系の基礎モデル(FM)は、大量のデータセットにわたる物理変数間の統計的関係を学習する。
本稿では,アース・システム・ファンデーション・モデル(ESFM)について紹介する。
本研究では,高密度グリッドデータ (ERA5, CMIP6) , 地域密集データ, 疎グリッドMODIS衛星データ, 局データを用いた。
結果は、最先端のベンチマークと比較して、競争力や優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-04-20T11:40:39Z) - TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation [65.74990259650984]
本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。
我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。
TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
論文 参考訳(メタデータ) (2025-06-06T17:59:50Z) - Benchmarking Object Detectors under Real-World Distribution Shifts in Satellite Imagery [9.723791642707738]
ドメイン一般化(DG)は、トレーニング中にターゲットディストリビューションにアクセスすることなく、モデルがOf-Distribution(OOD)データに一般化できるようにすることによってギャップを埋めようとしている。
実世界の分布シフト下での最先端物体検出器の汎用性とロバスト性について検討する。
本稿では,3つの新しいDGベンチマークデータセットのスイートであるReal-World Distribution Shifts (RWDS)を紹介する。
論文 参考訳(メタデータ) (2025-03-24T23:04:06Z) - Towards Understanding Link Predictor Generalizability Under Distribution Shifts [34.58496513149175]
LPShiftと呼ばれる新しい分割戦略を導入し、制御された分散シフトを誘導する。
我々は,元のデータセット分割の16 LPShift 変種に対する SOTA LP モデルの実証評価により,LPShift の効果を検証する。
論文 参考訳(メタデータ) (2024-06-13T03:47:12Z) - Wild-Time: A Benchmark of in-the-Wild Distribution Shift over Time [69.77704012415845]
時間的シフトは、現実世界にデプロイされた機械学習モデルのパフォーマンスを著しく低下させる可能性がある。
ドメイン一般化、連続学習、自己教師付き学習、アンサンブル学習の手法を含む13の先行手法をベンチマークする。
いずれの評価方略も,分布外データから分布外データへの平均的な性能低下を観察する。
論文 参考訳(メタデータ) (2022-11-25T17:07:53Z) - AnoShift: A Distribution Shift Benchmark for Unsupervised Anomaly
Detection [7.829710051617368]
本稿では,ネットワーク侵入検知のためのトラフィックデータセットである Kyoto-2006+ 上に構築された,時間とともに変化するデータを含む教師なし異常検出ベンチマークを提案する。
まず, 基本機能解析, t-SNE, および最適輸送手法を用いて, 年々の分布距離を計測する。
従来のアプローチからディープラーニングまで,さまざまなモデルでパフォーマンス劣化を検証する。
論文 参考訳(メタデータ) (2022-06-30T17:59:22Z) - Extending the WILDS Benchmark for Unsupervised Adaptation [186.90399201508953]
We present the WILDS 2.0 update, which extends 8 of the 10 datasets in the WILDS benchmark of distribution shifts to include curated unlabeled data。
これらのデータセットは、組織学から野生生物保護まで幅広い応用、タスク(分類、回帰、検出)、モダリティにまたがる。
ドメイン不変量や自己学習,自己管理など,ラベルのないデータを活用する最先端の手法を体系的にベンチマークする。
論文 参考訳(メタデータ) (2021-12-09T18:32:38Z) - WILDS: A Benchmark of in-the-Wild Distribution Shifts [157.53410583509924]
分散シフトは、ワイルドにデプロイされた機械学習システムの精度を実質的に低下させることができる。
分散シフトの多様な範囲を反映した8つのベンチマークデータセットのキュレーションコレクションであるWILDSを紹介します。
本研究は, 標準訓練の結果, 分布性能よりも, 分布域外性能が有意に低下することを示す。
論文 参考訳(メタデータ) (2020-12-14T11:14:56Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。