論文の概要: Earth Observation Foundation Model PhilEO: Pretraining on the MajorTOM and FastTOM Datasets
- arxiv url: http://arxiv.org/abs/2506.14765v4
- Date: Tue, 23 Sep 2025 17:56:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 16:16:25.692991
- Title: Earth Observation Foundation Model PhilEO: Pretraining on the MajorTOM and FastTOM Datasets
- Title(参考訳): 地球観測基礎モデルPhilEO:MajorTOMおよびFastTOMデータセットの事前学習
- Authors: Nikolaos Dionelis, Riccardo Musto, Jente Bosmans, Simone Sarti, Giancarlo Paoletti, Sébastien Lefèvre, Bertrand Le Saux, Nicolas Longépé,
- Abstract要約: すべてのリージョンを含む事前トレーニングデータセットMajorTOM 23TBでモデルをトレーニングします。
海と氷のさらなるデータにより、陸地に焦点を当てた下流作業の性能は低下しない。
2つ目の貢献は、FMとしてU-Net Convolutional Neural Network(CNN)、ViT(Vit)、Mamba State-Space Models(SSM)の探索である。
- 参考スコア(独自算出の注目度): 25.69468673907913
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Today, Earth Observation (EO) satellites generate massive volumes of data. To fully exploit this, it is essential to pretrain EO Foundation Models (FMs) on large unlabeled datasets, enabling efficient fine-tuning for downstream tasks with minimal labeled data. In this paper, we study scaling-up FMs: we train our models on the pretraining dataset MajorTOM 23TB which includes all regions, and the performance on average is competitive versus models pretrained on more specialized datasets which are substantially smaller and include only land. The additional data of oceans and ice do not decrease the performance on land-focused downstream tasks. These results indicate that large FMs trained on global datasets for a wider variety of downstream tasks can be useful for downstream applications that only require a subset of the information included in their training. The second contribution is the exploration of U-Net Convolutional Neural Network (CNN), Vision Transformers (ViT), and Mamba State-Space Models (SSM) as FMs. U-Net captures local correlations amongst pixels, while ViT and Mamba capture local and distant correlations. We develop various models using different architectures, including U-Net, ViT, and Mamba, and different number of parameters. We evaluate the FLoating-point OPerations (FLOPs) needed by the models. We fine-tune on the PhilEO Bench for different downstream tasks: roads, buildings, and land cover. For most n-shots for roads and buildings, U-Net 200M-2T outperforms the other models. Using Mamba, we achieve comparable results on the downstream tasks, with less computational expenses. We also compare with the recent FM TerraMind which we evaluate on PhilEO Bench.
- Abstract(参考訳): 今日、地球観測衛星(EO)は大量のデータを生成する。
これを完全に活用するには、大規模なラベル付きデータセット上でEOファンデーションモデル(FM)を事前訓練することが不可欠であり、最小のラベル付きデータで下流タスクの効率的な微調整を可能にする。
本稿では,すべての地域を含む事前学習データセットMajorTOM 23TBでモデルをトレーニングし,陸地のみを含むより限定的なデータセットで事前訓練されたモデルに対して,平均的な性能が競合することを示す。
海と氷のさらなるデータにより、陸地に焦点を当てた下流作業の性能は低下しない。
これらの結果から,グローバルデータセットに基づいてトレーニングされた大規模なFMは,トレーニングに含まれる情報のサブセットのみを必要とするダウンストリームアプリケーションに有用であることが示唆された。
2つ目の貢献は、FMとしてU-Net Convolutional Neural Network(CNN)、ViT(Vit)、Mamba State-Space Models(SSM)の探索である。
U-Netは画素間の局所的相関を捉え、ViTとMambaは局所的相関を捉えている。
U-Net, ViT, Mamba など,さまざまなアーキテクチャとパラメータ数を用いて,様々なモデルを構築している。
モデルで必要とされるFLoating-point OPerations(FLOP)を評価する。
私たちはPhilEO Benchで、道路、建物、土地のカバーなど、さまざまな下流のタスクを微調整しました。
道路や建物のほとんどのnショットでは、U-Net 200M-2Tは他のモデルよりも優れています。
Mambaを使用することで、ダウンストリームタスクで同等の結果を得ることができ、計算コストを削減できる。
また,PhilEO Benchで評価したFM TerraMindとの比較を行った。
関連論文リスト
- Can Mixture-of-Experts Surpass Dense LLMs Under Strictly Equal Resources? [58.56306556151929]
Mixture-of-Experts (MoE)言語モデルは、モデルキャパシティを劇的に拡張し、トーケン毎の計算量を増やすことなく優れたパフォーマンスを達成する。
MoEsは厳密なリソース制約の下で密集したアーキテクチャを超えることができるか?
最適領域における活性化率を持つMoEモデルは,同じパラメータ,トレーニング計算,およびデータ資源の下で,その密度の高いモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-06-13T17:59:05Z) - Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation [67.23953699167274]
自己教師付き学習(SSL)により、地球観測のための視覚基盤モデルの開発が可能になった。
EOでは、この課題は衛星画像に共通する冗長性と重尾分布によって増幅される。
本稿では,データセットの多様性とバランスを最大化し,SSL事前トレーニングを改善するために設計された動的データセットプルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-09T15:13:26Z) - Distilling foundation models for robust and efficient models in digital pathology [32.99044401004595]
大規模基礎モデルをより小さく蒸留し,数桁のパラメータ数を削減した。
我々のモデルであるH0-miniは、推定コストを大幅に削減して、大規模FMにほぼ匹敵する性能を実現する。
いくつかの公開ベンチマークで評価され、HESTベンチマークで3位、EVAベンチマークで5位となった。
論文 参考訳(メタデータ) (2025-01-27T17:35:39Z) - SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - EMOv2: Pushing 5M Vision Model Frontier [92.21687467702972]
様々な下流タスクにおいて,5M級軽量モデルの新たなフロンティアを構築した。
我々の研究は、Transformerにおける効率的なIRBと実用的なコンポーネントの軽量なインフラを再考する。
4G/5G帯でモデルをダウンロードする場合のモバイルユーザの遅延を考慮し,5M程度の軽量モデルの性能上限について検討する。
論文 参考訳(メタデータ) (2024-12-09T17:12:22Z) - Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications [5.1875922375491585]
Prithvi-EO-2.0は、新しい地理空間基盤モデルであり、前者よりも大幅に改善されている。
これは、NASAのハーモナイズド・ランドサットとセンチネル2のデータアーカイブから、30m解像度で4.2Mのグローバル時系列サンプルで訓練されている。
6億バージョンは以前のPrithvi-EOモデルより8%上回っている。
論文 参考訳(メタデータ) (2024-12-03T17:59:50Z) - Phikon-v2, A large and public feature extractor for biomarker prediction [42.52549987351643]
我々は、DINOv2を用いて視覚変換器を訓練し、このモデルの1つのイテレーションを公開して、Phikon-v2と呼ばれるさらなる実験を行う。
Phikon-v2は、公開されている組織学のスライドをトレーニングしながら、以前リリースしたモデル(Phikon)を上回り、プロプライエタリなデータでトレーニングされた他の病理学基盤モデル(FM)と同等に動作します。
論文 参考訳(メタデータ) (2024-09-13T20:12:29Z) - SpectralEarth: Training Hyperspectral Foundation Models at Scale [47.93167977587301]
ハイパースペクトル基礎モデルの事前学習を目的とした大規模マルチ時間データセットであるSpectralEarthを紹介する。
我々は、最先端の自己教師付き学習(SSL)アルゴリズムを用いて、SpectralEarthの一連の基礎モデルを事前訓練する。
我々は、土地被覆と収穫型マッピングのための4つの下流データセットを構築し、モデル評価のためのベンチマークを提供する。
論文 参考訳(メタデータ) (2024-08-15T22:55:59Z) - PhilEO Bench: Evaluating Geo-Spatial Foundation Models [30.02962498304698]
本稿では,EOファンデーションモデルのための新しい評価フレームワークであるPhilEO Benchを紹介する。
このフレームワークは、テストベッドと400GBのSentinel-2データセットからなる。
われわれはPrithviやSatMAEなど,異なるファンデーションモデルを評価するフレームワークを用いて実験を行った。
論文 参考訳(メタデータ) (2024-01-09T09:58:42Z) - Foundation Models for Generalist Geospatial Artificial Intelligence [3.7002058945990415]
本稿では,大規模データに基づく基礎モデルの事前学習と微調整を効果的に行うための第1種フレームワークを提案する。
我々はこの枠組みを利用して、マルチスペクトル衛星画像の1TB以上を事前トレーニングしたトランスフォーマーベースの基礎モデルであるPrithviを開発した。
論文 参考訳(メタデータ) (2023-10-28T10:19:55Z) - SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation [83.18930314027254]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
本研究では,VT-Huge をバックボーンとする第1次一般基礎モデル (SMPLer-X) に向けた EHPS のスケールアップについて検討する。
ビッグデータと大規模モデルにより、SMPLer-Xは、さまざまなテストベンチマークにまたがる強力なパフォーマンスと、目に見えない環境への優れた転送性を示す。
論文 参考訳(メタデータ) (2023-09-29T17:58:06Z) - Transforming Model Prediction for Tracking [109.08417327309937]
トランスフォーマーは、誘導バイアスの少ないグローバルな関係を捉え、より強力なターゲットモデルの予測を学ぶことができる。
提案したトラッカーをエンドツーエンドにトレーニングし、複数のトラッカーデータセットに関する総合的な実験を行うことで、その性能を検証する。
我々のトラッカーは3つのベンチマークで新しい技術状態を設定し、挑戦的なLaSOTデータセットで68.5%のAUCを達成した。
論文 参考訳(メタデータ) (2022-03-21T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。