論文の概要: Pretrain Where? Investigating How Pretraining Data Diversity Impacts Geospatial Foundation Model Performance
- arxiv url: http://arxiv.org/abs/2604.21104v1
- Date: Wed, 22 Apr 2026 21:43:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.193941
- Title: Pretrain Where? Investigating How Pretraining Data Diversity Impacts Geospatial Foundation Model Performance
- Title(参考訳): プレトレインはどこ? : データ多様性の事前訓練が地空間モデルの性能に与える影響について
- Authors: Amandeep Kaur, Mirali Purohit, Gedeon Muhawenayo, Esther Rolf, Hannah Kerner,
- Abstract要約: 性能差は主にモデルアーキテクチャや入力モダリティに起因するが、事前学習データセットの役割はめったに研究されていない。
我々は、グローバルおよび大陸毎の事前トレーニングデータセットを作成し、グローバルおよび大陸毎の下流データセットで評価した。
その結果,ヨーロッパにおけるプレトレーニングデータセットは,グローバルおよび地域下流評価において,グローバルおよび大陸固有のプレトレーニングデータセットよりも優れていた。
- 参考スコア(独自算出の注目度): 15.19997016963026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: New geospatial foundation models introduce a new model architecture and pretraining dataset, often sampled using different notions of data diversity. Performance differences are largely attributed to the model architecture or input modalities, while the role of the pretraining dataset is rarely studied. To address this research gap, we conducted a systematic study on how the geographic composition of pretraining data affects a model's downstream performance. We created global and per-continent pretraining datasets and evaluated them on global and per-continent downstream datasets. We found that the pretraining dataset from Europe outperformed global and continent-specific pretraining datasets on both global and local downstream evaluations. To investigate the factors influencing a pretraining dataset's downstream performance, we analysed 10 pretraining datasets using diversity across continents, biomes, landcover and spectral values. We found that only spectral diversity was strongly correlated with performance, while others were weakly correlated. This finding establishes a new dimension of diversity to be accounted for when creating a high-performing pretraining dataset. We open-sourced 7 new pretraining datasets, pretrained models, and our experimental framework at https://github.com/kerner-lab/pretrain-where.
- Abstract(参考訳): 新しい地理空間基盤モデルは、新しいモデルアーキテクチャと事前訓練データセットを導入し、しばしばデータ多様性の異なる概念を用いてサンプリングされる。
性能差は主にモデルアーキテクチャや入力モダリティに起因するが、事前学習データセットの役割はめったに研究されていない。
この研究ギャップに対処するため,プレトレーニングデータの地理的構成がモデル下流の性能に与える影響について,系統的研究を行った。
我々は、グローバルおよび大陸毎の事前トレーニングデータセットを作成し、グローバルおよび大陸毎の下流データセットで評価した。
その結果,ヨーロッパにおけるプレトレーニングデータセットは,グローバルおよび地域下流評価において,グローバルおよび大陸固有のプレトレーニングデータセットよりも優れていた。
プレトレーニングデータセットの下流性能に影響を与える要因を明らかにするために,大陸,生物,土地被覆,およびスペクトル値の多様性を用いて,プレトレーニングデータセット10種を分析した。
その結果,スペクトルの多様性のみが性能と強く相関し,他は弱い相関性を示した。
この発見は、ハイパフォーマンスな事前学習データセットを作成する際に考慮すべき新しい多様性の次元を確立する。
私たちは7つの新しい事前トレーニングデータセット、事前トレーニングされたモデル、および実験フレームワークをhttps://github.com/kerner-lab/pretrain-whereでオープンソース化しました。
関連論文リスト
- MMEarth-Bench: Global Model Adaptation via Multimodal Test-Time Training [15.675086189757769]
MMEarth-Benchは、12のモダリティ、グローバル分散データ、およびin-out-of-distriionテストの分割を持つ5つの新しいマルチモーダル環境タスクのコレクションである。
我々は、事前訓練されたモデルの多様なセットをベンチマークし、(マルチモーダルな)事前訓練は、限られたデータ設定におけるモデルの堅牢性を改善する傾向にあるが、地理的一般化能力は貧弱であることを示した。
本稿では,テスト時に利用できるすべてのモダリティを補助的タスクとして利用するマルチモーダル再構成(TTT-MMR)を用いたテストタイムトレーニングのモデルに依存しない手法を提案する。
論文 参考訳(メタデータ) (2026-02-06T00:48:19Z) - Towards Foundation Models on Graphs: An Analysis on Cross-Dataset Transfer of Pretrained GNNs [25.58407005007563]
本研究では,事前学習したグラフニューラルネットワークがデータセット間で適用可能な範囲について検討する。
機能に依存しないまま特徴情報をキャプチャする拡張を提案する。
論文 参考訳(メタデータ) (2024-12-23T14:28:56Z) - Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - On the Trade-off of Intra-/Inter-class Diversity for Supervised
Pre-training [72.8087629914444]
教師付き事前学習データセットのクラス内多様性(クラス毎のサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討した。
トレーニング前のデータセットのサイズが固定された場合、最高のダウンストリームのパフォーマンスは、クラス内/クラス間の多様性のバランスがとれる。
論文 参考訳(メタデータ) (2023-05-20T16:23:50Z) - Quality Not Quantity: On the Interaction between Dataset Design and
Robustness of CLIP [43.7219097444333]
ここでは,CLIPにおける事前学習分布がロバスト性をいかに引き起こすかを調べるために,公開されている6つのデータソースのテストベッドを紹介する。
その結果,事前学習データの性能は分布変化によって大きく異なることがわかった。
複数のソースを組み合わせることで、必ずしもより良いモデルが得られるのではなく、最高の個々のデータソースのロバスト性を希薄にする。
論文 参考訳(メタデータ) (2022-08-10T18:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。