論文の概要: Earth Observation Foundation Model PhilEO: Pretraining on the MajorTOM and FastTOM Datasets
- arxiv url: http://arxiv.org/abs/2506.14765v3
- Date: Mon, 15 Sep 2025 10:03:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 13:19:47.931844
- Title: Earth Observation Foundation Model PhilEO: Pretraining on the MajorTOM and FastTOM Datasets
- Title(参考訳): 地球観測基礎モデルPhilEO:MajorTOMおよびFastTOMデータセットの事前学習
- Authors: Nikolaos Dionelis, Jente Bosmans, Riccardo Musto, Giancarlo Paoletti, Simone Sarti, Giacomo Cascarano, Casper Fibaek, Luke Camilleri, Bertrand Le Saux, Nicolas Longépé,
- Abstract要約: 最近提案したEOファンデーションモデルであるPhilEO Geo-Aware U-Netのスケールアップについて,ラベルなし23TBデータセットMajorTOMで紹介する。
道路密度推定, 画素単位の回帰, 土地被覆セマンティックセマンティックセグメンテーションのためのPhilEO Benchのモデルを微調整する。
- 参考スコア(独自算出の注目度): 22.527733721726587
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Today, Earth Observation (EO) satellites generate massive volumes of data, with the Copernicus Sentinel-2 constellation alone producing approximately 1.6TB per day. To fully exploit this information, it is essential to pretrain EO Foundation Models (FMs) on large unlabeled datasets, enabling efficient fine-tuning for several different downstream tasks with minimal labeled data. In this work, we present the scaling-up of our recently proposed EO Foundation Model, PhilEO Geo-Aware U-Net, on the unlabeled 23TB dataset MajorTOM, which covers the vast majority of the Earth's surface, as well as on the specialized subset FastTOM 2TB that does not include oceans and ice. We develop and study various PhilEO model variants with different numbers of parameters and architectures. We fine-tune the models on the PhilEO Bench for road density estimation, building density pixel-wise regression, and land cover semantic segmentation, and we evaluate the performance. Our results demonstrate that for all n-shots for road density regression, the PhilEO 44M MajorTOM 23TB model outperforms PhilEO Globe 0.5TB 44M. We also show that for most n-shots for road density estimation and building density regression, PhilEO 200M FastTOM outperforms all the other models we examine. The effectiveness of both dataset and model scaling is validated using the PhilEO Bench. We also study the impact of architecture scaling, transitioning from U-Net Convolutional Neural Networks (CNN) to Vision Transformers (ViT).
- Abstract(参考訳): 今日、地球観測衛星(EO)は大量のデータを生成し、Copernicus Sentinel-2星座は1日あたり約1.6TBを発生している。
この情報を完全に活用するためには、大規模なラベル付きデータセット上でEOファンデーションモデル(FM)を事前訓練することが不可欠である。
本研究では,地球表面の大部分をカバーする23TBデータセットMajorTOMと,海や氷を含まない特別なサブセットFastTOM 2TBについて,最近提案したEOファンデーションモデルであるPhilEO Geo-Aware U-Netのスケールアップについて述べる。
パラメータとアーキテクチャの異なる様々なPhilEOモデル変異を開発し,研究する。
我々はPhilEO Bench上での道路密度推定, 建物密度の回帰, 土地被覆セマンティックセマンティックセグメンテーションのモデルを微調整し, 性能評価を行った。
以上の結果から,道路密度回帰のためのnショットはPhilEO 44MMajorTOM 23TBモデルの方がPhilEO Globe 0.5TB 44Mより優れていた。
また,道路密度推定と建物密度回帰の n ショットでは,PhilEO 200M FastTOM が他のモデルよりも優れていることを示す。
データセットとモデルスケーリングの有効性はPhilEO Benchを使って検証する。
また,U-Net Convolutional Neural Networks (CNN) からViT (Vit) への移行によるアーキテクチャスケーリングの影響についても検討した。
関連論文リスト
- Lightweight Metadata-Aware Mixture-of-Experts Masked Autoencoder for Earth Observation [0.0]
2.5Mパラメータしか持たないMetadata-Aware Mixture-of-Experts Masked Autoencoder (MoE-MAE)を提案する。
このモデルはスパース・エキスパート・ルーティングと時空条件付けを組み合わせることで、緯度/経度と季節/日周期の符号化を併用する。
サイズが小さいにもかかわらず、このモデルははるかに大きなアーキテクチャと競合し、メタデータを意識した事前トレーニングによって転送とラベルの効率が向上することを示した。
論文 参考訳(メタデータ) (2025-09-13T17:35:17Z) - Can Mixture-of-Experts Surpass Dense LLMs Under Strictly Equal Resources? [58.56306556151929]
Mixture-of-Experts (MoE)言語モデルは、モデルキャパシティを劇的に拡張し、トーケン毎の計算量を増やすことなく優れたパフォーマンスを達成する。
MoEsは厳密なリソース制約の下で密集したアーキテクチャを超えることができるか?
最適領域における活性化率を持つMoEモデルは,同じパラメータ,トレーニング計算,およびデータ資源の下で,その密度の高いモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-06-13T17:59:05Z) - Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation [67.23953699167274]
自己教師付き学習(SSL)により、地球観測のための視覚基盤モデルの開発が可能になった。
EOでは、この課題は衛星画像に共通する冗長性と重尾分布によって増幅される。
本稿では,データセットの多様性とバランスを最大化し,SSL事前トレーニングを改善するために設計された動的データセットプルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-09T15:13:26Z) - Distilling foundation models for robust and efficient models in digital pathology [32.99044401004595]
大規模基礎モデルをより小さく蒸留し,数桁のパラメータ数を削減した。
我々のモデルであるH0-miniは、推定コストを大幅に削減して、大規模FMにほぼ匹敵する性能を実現する。
いくつかの公開ベンチマークで評価され、HESTベンチマークで3位、EVAベンチマークで5位となった。
論文 参考訳(メタデータ) (2025-01-27T17:35:39Z) - SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - EMOv2: Pushing 5M Vision Model Frontier [92.21687467702972]
様々な下流タスクにおいて,5M級軽量モデルの新たなフロンティアを構築した。
我々の研究は、Transformerにおける効率的なIRBと実用的なコンポーネントの軽量なインフラを再考する。
4G/5G帯でモデルをダウンロードする場合のモバイルユーザの遅延を考慮し,5M程度の軽量モデルの性能上限について検討する。
論文 参考訳(メタデータ) (2024-12-09T17:12:22Z) - Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications [5.1875922375491585]
Prithvi-EO-2.0は、新しい地理空間基盤モデルであり、前者よりも大幅に改善されている。
これは、NASAのハーモナイズド・ランドサットとセンチネル2のデータアーカイブから、30m解像度で4.2Mのグローバル時系列サンプルで訓練されている。
6億バージョンは以前のPrithvi-EOモデルより8%上回っている。
論文 参考訳(メタデータ) (2024-12-03T17:59:50Z) - Phikon-v2, A large and public feature extractor for biomarker prediction [42.52549987351643]
我々は、DINOv2を用いて視覚変換器を訓練し、このモデルの1つのイテレーションを公開して、Phikon-v2と呼ばれるさらなる実験を行う。
Phikon-v2は、公開されている組織学のスライドをトレーニングしながら、以前リリースしたモデル(Phikon)を上回り、プロプライエタリなデータでトレーニングされた他の病理学基盤モデル(FM)と同等に動作します。
論文 参考訳(メタデータ) (2024-09-13T20:12:29Z) - SpectralEarth: Training Hyperspectral Foundation Models at Scale [47.93167977587301]
ハイパースペクトル基礎モデルの事前学習を目的とした大規模マルチ時間データセットであるSpectralEarthを紹介する。
我々は、最先端の自己教師付き学習(SSL)アルゴリズムを用いて、SpectralEarthの一連の基礎モデルを事前訓練する。
我々は、土地被覆と収穫型マッピングのための4つの下流データセットを構築し、モデル評価のためのベンチマークを提供する。
論文 参考訳(メタデータ) (2024-08-15T22:55:59Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - Pretraining Billion-scale Geospatial Foundational Models on Frontier [0.16492989697868893]
ファンデーションモデル(FM)は、自己教師付き学習を通じて、インターネットスケールの未ラベルデータで訓練される。
本研究では,空間的応用のための10億規模のFMとHPCトレーニングプロファイルを,公開データの事前学習により検討する。
我々のより大きな3Bパラメータサイズモデルでは、トップ1シーンの分類精度が最大30%向上する。
論文 参考訳(メタデータ) (2024-04-17T19:16:32Z) - No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - Proprioception Is All You Need: Terrain Classification for Boreal Forests [4.703814941476968]
BorealTCはプロプリセプティブ・ベースの地形分類(TC)のための公開データセットである
Husky A200で記録されたデータセットには、慣性測定ユニット(IMU)の116分間、モータ電流、車輪の計測データが含まれています。
2つのTCデータセットの組み合わせは、地形の特性で解釈できる潜在空間が得られることを示す。
論文 参考訳(メタデータ) (2024-03-25T15:42:09Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - PhilEO Bench: Evaluating Geo-Spatial Foundation Models [30.02962498304698]
本稿では,EOファンデーションモデルのための新しい評価フレームワークであるPhilEO Benchを紹介する。
このフレームワークは、テストベッドと400GBのSentinel-2データセットからなる。
われわれはPrithviやSatMAEなど,異なるファンデーションモデルを評価するフレームワークを用いて実験を行った。
論文 参考訳(メタデータ) (2024-01-09T09:58:42Z) - Foundation Models for Generalist Geospatial Artificial Intelligence [3.7002058945990415]
本稿では,大規模データに基づく基礎モデルの事前学習と微調整を効果的に行うための第1種フレームワークを提案する。
我々はこの枠組みを利用して、マルチスペクトル衛星画像の1TB以上を事前トレーニングしたトランスフォーマーベースの基礎モデルであるPrithviを開発した。
論文 参考訳(メタデータ) (2023-10-28T10:19:55Z) - SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation [83.18930314027254]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
本研究では,VT-Huge をバックボーンとする第1次一般基礎モデル (SMPLer-X) に向けた EHPS のスケールアップについて検討する。
ビッグデータと大規模モデルにより、SMPLer-Xは、さまざまなテストベンチマークにまたがる強力なパフォーマンスと、目に見えない環境への優れた転送性を示す。
論文 参考訳(メタデータ) (2023-09-29T17:58:06Z) - MIMIC: Masked Image Modeling with Image Correspondences [29.8154890262928]
効果的な事前トレーニングデータセットを構築するための現在の方法は、アノテーション付き3Dメッシュ、ポイントクラウド、シミュレートされた環境からのカメラパラメータに依存している。
我々は、追加のアノテーションを必要としない事前トレーニングされたデータセットキュレーションアプローチを提案する。
提案手法により,実世界のビデオとシミュレーション環境の両方から,大規模にマルチビューデータセットを生成することができる。
論文 参考訳(メタデータ) (2023-06-27T00:40:12Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - DIME-FM: DIstilling Multimodal and Efficient Foundation Models [72.1900621000677]
VLFM(Large Vision-Language Foundation Models)は、画像キャプチャペアの大規模なデータセットに基づいてトレーニングされる。
我々は,大容量VLFMに含まれる知識を,より小型でカスタマイズされた基礎モデルに転送できる新しい蒸留機構(DIME-FM)を導入する。
結果として得られたモデル "Distill-ViT-B/32" は、プライベートWiTデータセットで事前トレーニングされたCLIP-ViT-B/32モデルと競合する。
論文 参考訳(メタデータ) (2023-03-31T17:47:23Z) - Transforming Model Prediction for Tracking [109.08417327309937]
トランスフォーマーは、誘導バイアスの少ないグローバルな関係を捉え、より強力なターゲットモデルの予測を学ぶことができる。
提案したトラッカーをエンドツーエンドにトレーニングし、複数のトラッカーデータセットに関する総合的な実験を行うことで、その性能を検証する。
我々のトラッカーは3つのベンチマークで新しい技術状態を設定し、挑戦的なLaSOTデータセットで68.5%のAUCを達成した。
論文 参考訳(メタデータ) (2022-03-21T17:59:40Z) - Efficient deep learning models for land cover image classification [0.29748898344267777]
土地利用土地被覆(LULC)画像分類のためのBigEarthNetデータセットを用いて実験を行った。
コンボリューションニューラルネットワーク、マルチ層パーセプトロン、ビジュアルトランスフォーマー、効率的なネットワーク、ワイド残留ネットワーク(WRN)など、さまざまな最先端モデルをベンチマークする。
提案する軽量モデルは、訓練可能なパラメータが桁違いに小さく、平均的なFスコア分類精度が19のLULCクラスすべてに対して4.5%向上し、ベースラインとして使用するResNet50の2倍高速に訓練される。
論文 参考訳(メタデータ) (2021-11-18T00:03:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。