論文の概要: TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation
- arxiv url: http://arxiv.org/abs/2506.06281v1
- Date: Fri, 06 Jun 2025 17:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.584438
- Title: TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation
- Title(参考訳): TerraFM: 統一型マルチセンサー地球観測のためのスケーラブルな基礎モデル
- Authors: Muhammad Sohail Danish, Muhammad Akhtar Munir, Syed Roshaan Ali Shah, Muhammad Haris Khan, Rao Muhammad Anwer, Jorma Laaksonen, Fahad Shahbaz Khan, Salman Khan,
- Abstract要約: 本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。
我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。
TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
- 参考スコア(独自算出の注目度): 65.74990259650984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern Earth observation (EO) increasingly leverages deep learning to harness the scale and diversity of satellite imagery across sensors and regions. While recent foundation models have demonstrated promising generalization across EO tasks, many remain limited by the scale, geographical coverage, and spectral diversity of their training data, factors critical for learning globally transferable representations. In this work, we introduce TerraFM, a scalable self-supervised learning model that leverages globally distributed Sentinel-1 and Sentinel-2 imagery, combined with large spatial tiles and land-cover aware sampling to enrich spatial and semantic coverage. By treating sensing modalities as natural augmentations in our self-supervised approach, we unify radar and optical inputs via modality-specific patch embeddings and adaptive cross-attention fusion. Our training strategy integrates local-global contrastive learning and introduces a dual-centering mechanism that incorporates class-frequency-aware regularization to address long-tailed distributions in land cover.TerraFM achieves strong generalization on both classification and segmentation tasks, outperforming prior models on GEO-Bench and Copernicus-Bench. Our code and pretrained models are publicly available at: https://github.com/mbzuai-oryx/TerraFM .
- Abstract(参考訳): 現代の地球観測(EO)は、センサーや領域をまたいだ衛星画像のスケールと多様性を活用するために、ディープラーニングを活用している。
最近の基礎モデルは、EOタスク全体にわたる有望な一般化を実証しているが、その多くは、グローバルに転送可能な表現を学ぶ上で重要な要因である、トレーニングデータのスケール、地理的カバレッジ、スペクトルの多様性によって制限されている。
本研究では,グローバルに分散したSentinel-1とSentinel-2の画像を活用する,スケーラブルな自己教師型学習モデルTerraFMについて紹介する。
自己監督的アプローチにおいて、モーダルの知覚を自然な拡張として扱うことにより、モダリティ特異的パッチ埋め込みと適応的クロスアテンション融合により、レーダと光入力を統一する。
本研究では,土地被覆における長期分布に対応するために,クラス周波数対応の正規化を取り入れた2重中心型学習機構を導入し,GEO-Bench と Copernicus-Bench の先行モデルよりも高い性能で,分類・分節タスクの強力な一般化を実現している。
私たちのコードと事前訓練されたモデルは、https://github.com/mbzuai-oryx/TerraFMで公開されています。
関連論文リスト
- EarthMind: Towards Multi-Granular and Multi-Sensor Earth Observation with Large Multimodal Models [96.18182289276649]
我々は,多粒子・多センサ地球観測(EO)データ理解のための新しい視覚言語フレームワークであるEarthMindを提案する。
EarthMind は,(1) 画素レベルの理解を高めるために LLM 内で注意を喚起する空間アテンション・プロンプティング (SAP) と、(2) 異質なモダリティを共有空間に整合させるクロスモーダル・フュージョン (Cross-modal Fusion) の2つのコアコンポーネントを備えている。
マルチセンサ・フュージョン評価を容易にするため,2000以上のマルチセンサ・イメージ・クエクション・ペアを用いた総合ベンチマーク「EarthMind-Bench」を提案する。
論文 参考訳(メタデータ) (2025-06-02T13:36:05Z) - A Sensor Agnostic Domain Generalization Framework for Leveraging Geospatial Foundation Models: Enhancing Semantic Segmentation viaSynergistic Pseudo-Labeling and Generative Learning [5.299218284699214]
高性能セグメンテーションモデルは、センサ、照明、地理のアノテーション不足と可変性によって挑戦されている。
本稿では,ソフトアライメント擬似ラベルとソース・ツー・ターゲット生成事前学習を組み合わせることで,新しい地理空間基盤モデルを活用するための領域一般化手法を提案する。
ハイパースペクトルおよびマルチスペクトルリモートセンシングデータセットを用いた実験により、適応性とセグメンテーションを向上させる方法の有効性が確認された。
論文 参考訳(メタデータ) (2025-05-02T19:52:02Z) - TerraMind: Large-Scale Generative Multimodality for Earth Observation [3.5472166810202457]
TerraMindは、地球観測のための初の生成的マルチモーダル基礎モデルである。
他のマルチモーダルモデルとは異なり、TerraMindはトークンレベルとピクセルレベルのデータを組み合わせたデュアルスケール表現で事前訓練されている。
論文 参考訳(メタデータ) (2025-04-15T13:17:39Z) - Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation [67.23953699167274]
自己教師付き学習(SSL)により、地球観測のための視覚基盤モデルの開発が可能になった。
EOでは、この課題は衛星画像に共通する冗長性と重尾分布によって増幅される。
本稿では,データセットの多様性とバランスを最大化し,SSL事前トレーニングを改善するために設計された動的データセットプルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-09T15:13:26Z) - No Location Left Behind: Measuring and Improving the Fairness of Implicit Representations for Earth Data [13.412573082645096]
暗黙の神経表現(INR)は、地球表象の課題に対処する上での公約が増大している。
既存の手法はグローバルな平均性能を不均等に優先する。
FAIR-Earthは、地球表象の不等式を調べ、挑戦するための第一種データセットである。
論文 参考訳(メタデータ) (2025-02-05T16:51:13Z) - Multisource Collaborative Domain Generalization for Cross-Scene Remote Sensing Image Classification [57.945437355714155]
クロスシーン画像分類は, 異なる分布領域のアノテート領域に, 地中物質の事前の知識を伝達することを目的としている。
既存のアプローチでは、未確認のターゲットドメインへの単一ソースドメインの一般化に重点を置いている。
マルチソースリモートセンシングデータの均一性と不均一性特性に基づく,新しいマルチソース協調型ドメイン一般化フレームワーク(MS-CDG)を提案する。
論文 参考訳(メタデータ) (2024-12-05T06:15:08Z) - Bridging Data Islands: Geographic Heterogeneity-Aware Federated Learning for Collaborative Remote Sensing Semantic Segmentation [7.265569559979736]
高品質な注釈付きリモートセンシング画像は、しばしば分離され、機関に分散される。
リモートセンシングデータアイランドの問題は、グローバルモデルのトレーニングに独立したデータセットを完全に活用する上での課題を提起している。
我々は、RSSでデータアイランドをブリッジする新しい地理異質性を考慮したフェデレーションラーニング(GeoFed)フレームワークを提案する。
我々のフレームワークは,Global Insight Enhancement(GIE)モジュール,Essential Feature Mining(EFM)モジュール,LoGo(LoGo)モジュールという3つのモジュールで構成されています。
論文 参考訳(メタデータ) (2024-04-14T15:58:35Z) - Federated Multi-Agent Mapping for Planetary Exploration [0.4143603294943439]
本稿では,エージェント間のグローバルマップモデルを生データを送信することなく,協調的にトレーニングするフェデレーション型マルチエージェントマッピング手法を提案する。
提案手法は暗黙的ニューラルマッピングを利用してパシモニアスで適応可能な表現を生成し,生のマップと比較して最大93.8%のデータを伝送する。
我々は,火星の地形や氷河のデータセットに対するアプローチの有効性を実証し,F1スコアを0.95ポイントまで下方経路計画を達成するとともに,地図の復元損失に勝る結果を得た。
論文 参考訳(メタデータ) (2024-04-02T20:32:32Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。