論文の概要: Scaling-Up the Pretraining of the Earth Observation Foundation Model PhilEO to the MajorTOM Dataset
- arxiv url: http://arxiv.org/abs/2506.14765v1
- Date: Tue, 17 Jun 2025 17:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.603168
- Title: Scaling-Up the Pretraining of the Earth Observation Foundation Model PhilEO to the MajorTOM Dataset
- Title(参考訳): 地球観測基礎モデルPhilEOのMajorTOMデータセットへの事前学習のスケールアップ
- Authors: Nikolaos Dionelis, Jente Bosmans, Riccardo Musto, Giancarlo Paoletti, Simone Sarti, Giacomo Cascarano, Casper Fibaek, Luke Camilleri, Bertrand Le Saux, Nicolas Longépé,
- Abstract要約: 最近提案したEOファンデーションモデルであるPhilEO Geo-Aware U-Netのスケールアップについて,ラベルなし23TBデータセットMajorTOMで紹介する。
道路密度推定, 画素単位の回帰, 土地被覆セマンティックセマンティックセグメンテーションのためのPhilEO Benchのモデルを微調整する。
- 参考スコア(独自算出の注目度): 24.220415582448933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Today, Earth Observation (EO) satellites generate massive volumes of data, with the Copernicus Sentinel-2 constellation alone producing approximately 1.6TB per day. To fully exploit this information, it is essential to pretrain EO Foundation Models (FMs) on large unlabeled datasets, enabling efficient fine-tuning for several different downstream tasks with minimal labeled data. In this work, we present the scaling-up of our recently proposed EO Foundation Model, PhilEO Geo-Aware U-Net, on the unlabeled 23TB dataset MajorTOM, which covers the vast majority of the Earth's surface, as well as on the specialized subset FastTOM 2TB that does not include oceans and ice. We develop and study various PhilEO model variants with different numbers of parameters and architectures. Finally, we fine-tune the models on the PhilEO Bench for road density estimation, building density pixel-wise regression, and land cover semantic segmentation, and we evaluate the performance. Our results demonstrate that for all n-shots for road density regression, the PhilEO 44M MajorTOM 23TB model outperforms PhilEO Globe 0.5TB 44M. We also show that for most n-shots for road density estimation and building density regression, PhilEO 200M FastTOM outperforms all the other models. The effectiveness of both dataset and model scaling is validated using the PhilEO Bench. We also study the impact of architecture scaling, transitioning from U-Net Convolutional Neural Networks (CNN) to Vision Transformers (ViT).
- Abstract(参考訳): 今日、地球観測衛星(EO)は大量のデータを生成し、Copernicus Sentinel-2星座は1日あたり約1.6TBを発生している。
この情報を完全に活用するためには、大規模なラベル付きデータセット上でEOファンデーションモデル(FM)を事前訓練することが不可欠である。
本研究では,地球表面の大部分をカバーする23TBデータセットMajorTOMと,海や氷を含まない特別なサブセットFastTOM 2TBについて,最近提案したEOファンデーションモデルであるPhilEO Geo-Aware U-Netのスケールアップについて述べる。
パラメータとアーキテクチャの異なる様々なPhilEOモデル変異を開発し,研究する。
最後に,PhilEO Bench上での道路密度推定,建物密度の回帰,土地被覆セマンティックセマンティックセグメンテーションのモデルに微調整を行い,性能評価を行った。
以上の結果から,道路密度回帰のためのnショットはPhilEO 44MMajorTOM 23TBモデルの方がPhilEO Globe 0.5TB 44Mより優れていた。
また,道路密度推定と建物密度回帰の n ショットのほとんどは,PhilEO 200M FastTOM が他のモデルよりも優れていることを示す。
データセットとモデルスケーリングの有効性はPhilEO Benchを使って検証する。
また,U-Net Convolutional Neural Networks (CNN) からViT (Vit) への移行によるアーキテクチャスケーリングの影響についても検討した。
関連論文リスト
- Can Mixture-of-Experts Surpass Dense LLMs Under Strictly Equal Resources? [58.56306556151929]
Mixture-of-Experts (MoE)言語モデルは、モデルキャパシティを劇的に拡張し、トーケン毎の計算量を増やすことなく優れたパフォーマンスを達成する。
MoEsは厳密なリソース制約の下で密集したアーキテクチャを超えることができるか?
最適領域における活性化率を持つMoEモデルは,同じパラメータ,トレーニング計算,およびデータ資源の下で,その密度の高いモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-06-13T17:59:05Z) - Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation [67.23953699167274]
自己教師付き学習(SSL)により、地球観測のための視覚基盤モデルの開発が可能になった。
EOでは、この課題は衛星画像に共通する冗長性と重尾分布によって増幅される。
本稿では,データセットの多様性とバランスを最大化し,SSL事前トレーニングを改善するために設計された動的データセットプルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-09T15:13:26Z) - SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - EMOv2: Pushing 5M Vision Model Frontier [92.21687467702972]
様々な下流タスクにおいて,5M級軽量モデルの新たなフロンティアを構築した。
我々の研究は、Transformerにおける効率的なIRBと実用的なコンポーネントの軽量なインフラを再考する。
4G/5G帯でモデルをダウンロードする場合のモバイルユーザの遅延を考慮し,5M程度の軽量モデルの性能上限について検討する。
論文 参考訳(メタデータ) (2024-12-09T17:12:22Z) - Phikon-v2, A large and public feature extractor for biomarker prediction [42.52549987351643]
我々は、DINOv2を用いて視覚変換器を訓練し、このモデルの1つのイテレーションを公開して、Phikon-v2と呼ばれるさらなる実験を行う。
Phikon-v2は、公開されている組織学のスライドをトレーニングしながら、以前リリースしたモデル(Phikon)を上回り、プロプライエタリなデータでトレーニングされた他の病理学基盤モデル(FM)と同等に動作します。
論文 参考訳(メタデータ) (2024-09-13T20:12:29Z) - PhilEO Bench: Evaluating Geo-Spatial Foundation Models [30.02962498304698]
本稿では,EOファンデーションモデルのための新しい評価フレームワークであるPhilEO Benchを紹介する。
このフレームワークは、テストベッドと400GBのSentinel-2データセットからなる。
われわれはPrithviやSatMAEなど,異なるファンデーションモデルを評価するフレームワークを用いて実験を行った。
論文 参考訳(メタデータ) (2024-01-09T09:58:42Z) - Foundation Models for Generalist Geospatial Artificial Intelligence [3.7002058945990415]
本稿では,大規模データに基づく基礎モデルの事前学習と微調整を効果的に行うための第1種フレームワークを提案する。
我々はこの枠組みを利用して、マルチスペクトル衛星画像の1TB以上を事前トレーニングしたトランスフォーマーベースの基礎モデルであるPrithviを開発した。
論文 参考訳(メタデータ) (2023-10-28T10:19:55Z) - SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation [83.18930314027254]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
本研究では,VT-Huge をバックボーンとする第1次一般基礎モデル (SMPLer-X) に向けた EHPS のスケールアップについて検討する。
ビッグデータと大規模モデルにより、SMPLer-Xは、さまざまなテストベンチマークにまたがる強力なパフォーマンスと、目に見えない環境への優れた転送性を示す。
論文 参考訳(メタデータ) (2023-09-29T17:58:06Z) - Transforming Model Prediction for Tracking [109.08417327309937]
トランスフォーマーは、誘導バイアスの少ないグローバルな関係を捉え、より強力なターゲットモデルの予測を学ぶことができる。
提案したトラッカーをエンドツーエンドにトレーニングし、複数のトラッカーデータセットに関する総合的な実験を行うことで、その性能を検証する。
我々のトラッカーは3つのベンチマークで新しい技術状態を設定し、挑戦的なLaSOTデータセットで68.5%のAUCを達成した。
論文 参考訳(メタデータ) (2022-03-21T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。