論文の概要: AgriFM: A Multi-source Temporal Remote Sensing Foundation Model for Crop Mapping
- arxiv url: http://arxiv.org/abs/2505.21357v2
- Date: Wed, 28 May 2025 09:24:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 12:33:41.798321
- Title: AgriFM: A Multi-source Temporal Remote Sensing Foundation Model for Crop Mapping
- Title(参考訳): AgriFM: クロップマッピングのためのマルチソース時間リモートセンシング基盤モデル
- Authors: Wenyuan Li, Shunlin Liang, Keyan Chen, Yongzhe Chen, Han Ma, Jianglei Xu, Yichuan Ma, Shikang Guan, Husheng Fang, Zhenwei Shi,
- Abstract要約: トランスフォーマーベースのリモートセンシング基礎モデル(RSFM)は、統一された処理能力のため、作物マッピングの可能性を秘めている。
農作物のマッピングに特化して設計された多時間リモートセンシング基盤モデルであるAgriFMを提案する。
- 参考スコア(独自算出の注目度): 11.187551725609099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate crop mapping fundamentally relies on modeling multi-scale spatiotemporal patterns, where spatial scales range from individual field textures to landscape-level context, and temporal scales capture both short-term phenological transitions and full growing-season dynamics. Transformer-based remote sensing foundation models (RSFMs) offer promising potential for crop mapping due to their innate ability for unified spatiotemporal processing. However, current RSFMs remain suboptimal for crop mapping: they either employ fixed spatiotemporal windows that ignore the multi-scale nature of crop systems or completely disregard temporal information by focusing solely on spatial patterns. To bridge these gaps, we present AgriFM, a multi-source remote sensing foundation model specifically designed for agricultural crop mapping. Our approach begins by establishing the necessity of simultaneous hierarchical spatiotemporal feature extraction, leading to the development of a modified Video Swin Transformer architecture where temporal down-sampling is synchronized with spatial scaling operations. This modified backbone enables efficient unified processing of long time-series satellite inputs. AgriFM leverages temporally rich data streams from three satellite sources including MODIS, Landsat-8/9 and Sentinel-2, and is pre-trained on a global representative dataset comprising over 25 million image samples supervised by land cover products. The resulting framework incorporates a versatile decoder architecture that dynamically fuses these learned spatiotemporal representations, supporting diverse downstream tasks. Comprehensive evaluations demonstrate AgriFM's superior performance over conventional deep learning approaches and state-of-the-art general-purpose RSFMs across all downstream tasks. Codes will be available at https://github.com/flyakon/AgriFM.
- Abstract(参考訳): 正確な作物マッピングは、空間的スケールが個々のフィールドテクスチャからランドスケープレベルのコンテキストまで、時間的スケールが短期的な表現論的遷移と完全な成長シーズンのダイナミクスの両方を捉えるような、マルチスケールの時空間パターンのモデル化に基本的に依存している。
トランスフォーマーを用いたリモートセンシング基礎モデル(RSFM)は、一貫した時空間処理に固有の能力のため、作物マッピングに有望な可能性を提供する。
しかし、現在のRSFMは、作物マッピングに最適であり、作物のマルチスケールの性質を無視する固定時空間窓を用いるか、空間パターンにのみ焦点をあてて時間情報を完全に無視する。
このようなギャップを埋めるために,農作物のマッピングに特化して設計されたマルチソースリモートセンシング基盤モデルであるAgriFMを提案する。
提案手法は,時間的ダウンサンプリングと空間的スケーリング操作を同期するビデオスウィン変換器アーキテクチャを改良した上で,同時階層的時空間特徴抽出の必要性を確立することから始まる。
この改良されたバックボーンは、長期衛星入力の効率的な統一処理を可能にする。
AgriFMは、MODIS、Landsat-8/9、Sentinel-2を含む3つの衛星源からの時間的に豊かなデータストリームを利用しており、ランドカバー製品によって監督された2500万以上の画像サンプルからなるグローバル代表データセットで事前訓練されている。
このフレームワークは、学習した時空間表現を動的に融合し、多様な下流タスクをサポートする多目的デコーダアーキテクチャを組み込んでいる。
総合的な評価は、AgriFMが従来のディープラーニングアプローチや、すべての下流タスクにおける最先端の汎用RSFMよりも優れた性能を示している。
コードはhttps://github.com/flyakon/AgriFM.comから入手できる。
関連論文リスト
- Wavelet-Guided Dual-Frequency Encoding for Remote Sensing Change Detection [67.84730634802204]
リモートセンシング画像の変化検出は,自然災害監視,都市拡張追跡,インフラ管理など,さまざまな工学的応用において重要な役割を担っている。
既存のほとんどの手法は空間領域モデリングに依存しており、特徴表現の限られた多様性は微妙な変化領域の検出を妨げる。
本研究では、特にウェーブレット領域における周波数領域の特徴モデリングが周波数成分の微細な違いを増幅し、空間領域において捉えにくいエッジ変化の知覚を高めることを観察する。
論文 参考訳(メタデータ) (2025-08-07T11:14:16Z) - DFYP: A Dynamic Fusion Framework with Spectral Channel Attention and Adaptive Operator learning for Crop Yield Prediction [18.24061967822792]
DFYPは、作物収量予測のための新しい動的融合フレームワークである。
スペクトルチャネルアテンション、エッジ適応空間モデリング、学習可能な融合機構を組み合わせる。
DFYPはRMSE、MAE、R2の最先端ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-07-08T10:24:04Z) - Multivariate Long-term Time Series Forecasting with Fourier Neural Filter [55.09326865401653]
我々はFNFをバックボーンとして、DBDをアーキテクチャとして導入し、空間時間モデルのための優れた学習能力と最適な学習経路を提供する。
FNFは、局所時間領域とグローバル周波数領域の情報処理を単一のバックボーン内で統合し、空間的モデリングに自然に拡張することを示す。
論文 参考訳(メタデータ) (2025-06-10T18:40:20Z) - TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation [65.74990259650984]
本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。
我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。
TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
論文 参考訳(メタデータ) (2025-06-06T17:59:50Z) - TiMo: Spatiotemporal Foundation Model for Satellite Image Time Series [39.22426645737932]
TiMoは、SITS分析に適した新しい階層型視覚トランスフォーマー基盤モデルである。
その中核となるのは、時間と空間の両方にわたるマルチスケールパターンを動的にキャプチャする時間的注意機構の導入である。
森林破壊モニタリングを含む複数の時間的タスクにわたる広範囲な実験-TiMoの最先端手法に対する優位性を実証する。
論文 参考訳(メタデータ) (2025-05-13T16:35:11Z) - Deep Multimodal Fusion for Semantic Segmentation of Remote Sensing Earth Observation Data [0.08192907805418582]
本稿では,セマンティックセグメンテーションのための後期融合深層学習モデル(LF-DLM)を提案する。
1つのブランチは、UNetFormerがキャプチャした空中画像の詳細なテクスチャと、ViT(Multi-Axis Vision Transformer)バックボーンを統合する。
もう一方のブランチは、U-ViNet(U-TAE)を用いてSentinel-2衛星画像Max時系列から複雑な時間ダイナミクスをキャプチャする。
論文 参考訳(メタデータ) (2024-10-01T07:50:37Z) - SatSwinMAE: Efficient Autoencoding for Multiscale Time-series Satellite Imagery [1.6180992915701702]
衛星時系列データのための時間情報を統合するために,SwinEモデルを拡張した。
このアーキテクチャでは、階層的な3D Masked Autoencoder (MAE) と Video Swin Transformer ブロックを採用している。
提案手法は, 既存の基盤モデルに対して, 評価された下流タスクすべてに対して, 大幅な性能向上を図っている。
論文 参考訳(メタデータ) (2024-05-03T22:55:56Z) - SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery [35.550999964460466]
本稿では,2150万の時間的シーケンスを持つマルチモーダルリモートセンシングデータセットを事前トレーニングした総称10億スケールモデルSkySenseを提案する。
我々の知る限り、SkySenseは今までで最大のマルチモーダルであり、モジュールを柔軟に組み合わせたり、個別に使用して様々なタスクに適合させることができる。
論文 参考訳(メタデータ) (2023-12-15T09:57:21Z) - DiffusionSat: A Generative Foundation Model for Satellite Imagery [63.2807119794691]
現在、DiffusionSatは、現在利用可能な大規模な高解像度リモートセンシングデータセットのコレクションに基づいてトレーニングされている、最大の生成基盤モデルである。
提案手法は, リアルタイムなサンプルを作成し, 時間生成, マルチスペクトル入力の超解像, インペイントなどの複数の生成課題を解くのに利用できる。
論文 参考訳(メタデータ) (2023-12-06T16:53:17Z) - Local-Global Temporal Difference Learning for Satellite Video Super-Resolution [53.03380679343968]
本稿では,時間的差分を効果的かつ効果的な時間的補償に利用することを提案する。
フレーム内における局所的・大域的時間的情報を完全に活用するために,短期・長期的時間的相違を体系的にモデル化した。
5つの主流ビデオ衛星に対して行われた厳密な客観的および主観的評価は、我々の手法が最先端のアプローチに対して好適に機能することを実証している。
論文 参考訳(メタデータ) (2023-04-10T07:04:40Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - SatMAE: Pre-training Transformers for Temporal and Multi-Spectral
Satellite Imagery [74.82821342249039]
Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。
時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
論文 参考訳(メタデータ) (2022-07-17T01:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。