論文の概要: How Does the Spatial Distribution of Pre-training Data Affect Geospatial Foundation Models?
- arxiv url: http://arxiv.org/abs/2501.12535v1
- Date: Tue, 21 Jan 2025 22:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:53:14.371794
- Title: How Does the Spatial Distribution of Pre-training Data Affect Geospatial Foundation Models?
- Title(参考訳): 事前学習データの空間分布は空間的基礎モデルにどのように影響するか
- Authors: Mirali Purohit, Gedeon Muhawenayo, Esther Rolf, Hannah Kerner,
- Abstract要約: 地理空間モデル(GFM)は、気候変動、農業、災害対応といった世界的な課題に対処するのに役立つ。
GFMの以前の研究は、モデルアーキテクチャとプレテキストタスクの調整に重点を置いており、事前学習データの選択がモデルの性能に与える影響を調査しなかった。
本研究では,事前学習データの地理的分布がGFMの性能に与える影響について検討する。
- 参考スコア(独自算出の注目度): 10.126199683760344
- License:
- Abstract: Foundation models have made rapid advances in many domains including Earth observation, where Geospatial Foundation Models (GFMs) can help address global challenges such as climate change, agriculture, and disaster response. Previous work on GFMs focused on tailoring model architecture and pre-text tasks, and did not investigate the impact of pre-training data selection on model performance. However, recent works from other domains show that the pre-training data distribution is an important factor influencing the performance of the foundation models. With this motivation, our research explores how the geographic distribution of pre-training data affects the performance of GFMs. We evaluated several pre-training data distributions by sampling different compositions from a global data pool. Our experiments with two GFMs on downstream tasks indicate that balanced and globally representative data compositions often outperform region-specific sampling, highlighting the importance of diversity and global coverage in pre-training data. Our results suggest that the most appropriate data sampling technique may depend on the specific GFM architecture. These findings will support the development of robust GFMs by incorporating quality pre-training data distributions, ultimately improving machine learning solutions for Earth observation.
- Abstract(参考訳): 地球観測(Geospatial Foundation Models、GFM)は、気候変動、農業、災害対応といった世界的な課題に対処する。
GFMの以前の研究は、モデルアーキテクチャとプレテキストタスクの調整に重点を置いており、事前学習データの選択がモデルの性能に与える影響を調査しなかった。
しかし、近年の他の領域の研究では、事前学習したデータ分布が基礎モデルの性能に影響を与える重要な要因であることが示されている。
このモチベーションにより,事前学習データの地理的分布がGFMの性能に与える影響について検討する。
我々は,グローバルデータプールから様々な組成をサンプリングし,事前学習データ分布を評価した。
下流タスクにおける2つのGFMを用いた実験では、バランスの取れたデータとグローバルなデータ構成が、地域固有のサンプリングよりも優れており、事前学習データにおける多様性とグローバルカバレッジの重要性が強調されている。
以上の結果から,最も適切なデータサンプリング手法は,特定のGFMアーキテクチャに依存する可能性が示唆された。
これらの発見は、高品質な事前学習データ分布を導入し、最終的には地球観測のための機械学習ソリューションを改善することによって、堅牢なGFMの開発を支援する。
関連論文リスト
- Tackling Data Heterogeneity in Federated Time Series Forecasting [61.021413959988216]
時系列予測は、エネルギー消費予測、病気の伝染モニタリング、天気予報など、様々な実世界の応用において重要な役割を果たす。
既存のほとんどのメソッドは、分散デバイスから中央クラウドサーバに大量のデータを収集する、集中的なトレーニングパラダイムに依存しています。
本稿では,情報合成データを補助的知識キャリアとして生成することにより,データの均一性に対処する新しいフレームワークであるFed-TRENDを提案する。
論文 参考訳(メタデータ) (2024-11-24T04:56:45Z) - Local vs. Global Models for Hierarchical Forecasting [0.0]
本研究では,情報活用が階層的予測の精度に与える影響について検討する。
我々は,クロスシリーズとクロス階層情報を活用するために,グローバル予測モデル(GFM)を開発した。
LightGBM に基づく2つの特定の GFM が導入された。
論文 参考訳(メタデータ) (2024-11-10T08:51:49Z) - Cross-Domain Foundation Model Adaptation: Pioneering Computer Vision Models for Geophysical Data Analysis [18.928794841454312]
コンピュータビジョン領域から地球科学への適応基盤モデル(FM)について検討する。
本研究では,コンピュータビジョンから地学へのFMの適用について検討し,その規模,適応性,地学データ解析の汎用性について考察した。
本稿では,既存のコンピュータビジョンFMを活用し,地学的なタスクを微調整し,開発コストを低減し,精度を向上するワークフローを提案する。
論文 参考訳(メタデータ) (2024-08-22T13:41:18Z) - Enhancing Data Quality in Federated Fine-Tuning of Foundation Models [54.757324343062734]
本稿では,基礎モデルのファインチューニングのためのデータ品質制御パイプラインを提案する。
このパイプラインは、トレーニングデータの質を反映したスコアを計算し、統一された標準のグローバルしきい値を決定する。
実験の結果,提案した品質制御パイプラインはモデルトレーニングの有効性と信頼性を向上し,性能が向上することが示された。
論文 参考訳(メタデータ) (2024-03-07T14:28:04Z) - Leveraging Foundation Models to Improve Lightweight Clients in Federated
Learning [16.684749528240587]
Federated Learning(FL)は、世界中に散在するクライアントが機密データを漏らさずにグローバルモデルを共同で学習することを可能にする、分散トレーニングパラダイムである。
FLは、クライアント間での不均一なデータ分散という形で大きな課題に直面しており、パフォーマンスとロバスト性は低下している。
本稿では,軽量クライアントモデルの連合訓練を支援し,推論コストを低く抑えつつ,不均一なデータ設定下での性能を向上させる基礎モデル蒸留について紹介する。
論文 参考訳(メタデータ) (2023-11-14T19:10:56Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Evaluating and Incentivizing Diverse Data Contributions in Collaborative
Learning [89.21177894013225]
フェデレートされた学習モデルがうまく機能するためには、多様で代表的なデータセットを持つことが不可欠である。
データの多様性を定量化するために用いられる統計的基準と、使用するフェデレート学習アルゴリズムの選択が、結果の平衡に有意な影響を及ぼすことを示す。
我々はこれを活用して、データ収集者がグローバルな人口を代表するデータに貢献することを奨励する、シンプルな最適なフェデレーション学習機構を設計する。
論文 参考訳(メタデータ) (2023-06-08T23:38:25Z) - An Empirical Study on Distribution Shift Robustness From the Perspective
of Pre-Training and Data Augmentation [91.62129090006745]
本稿では,事前学習とデータ拡張の観点から分布シフト問題を考察する。
我々は,事前学習とデータ拡張に焦点を当てた,最初の総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2022-05-25T13:04:53Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Meta-Learning for Few-Shot Land Cover Classification [3.8529010979482123]
分類タスクとセグメンテーションタスクにおけるモデル非依存メタラーニング(MAML)アルゴリズムの評価を行った。
数発のモデル適応は,正規勾配降下による事前学習よりも優れていた。
これは、メタラーニングによるモデル最適化が地球科学におけるタスクの恩恵をもたらすことを示唆している。
論文 参考訳(メタデータ) (2020-04-28T09:42:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。