論文の概要: TiMo: Spatiotemporal Foundation Model for Satellite Image Time Series
- arxiv url: http://arxiv.org/abs/2505.08723v1
- Date: Tue, 13 May 2025 16:35:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.671552
- Title: TiMo: Spatiotemporal Foundation Model for Satellite Image Time Series
- Title(参考訳): TiMo:衛星画像時系列の時空間モデル
- Authors: Xiaolei Qin, Di Wang, Jing Zhang, Fengxiang Wang, Xin Su, Bo Du, Liangpei Zhang,
- Abstract要約: TiMoは、SITS分析に適した新しい階層型視覚トランスフォーマー基盤モデルである。
その中核となるのは、時間と空間の両方にわたるマルチスケールパターンを動的にキャプチャする時間的注意機構の導入である。
森林破壊モニタリングを含む複数の時間的タスクにわたる広範囲な実験-TiMoの最先端手法に対する優位性を実証する。
- 参考スコア(独自算出の注目度): 39.22426645737932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Satellite image time series (SITS) provide continuous observations of the Earth's surface, making them essential for applications such as environmental management and disaster assessment. However, existing spatiotemporal foundation models rely on plain vision transformers, which encode entire temporal sequences without explicitly capturing multiscale spatiotemporal relationships between land objects. This limitation hinders their effectiveness in downstream tasks. To overcome this challenge, we propose TiMo, a novel hierarchical vision transformer foundation model tailored for SITS analysis. At its core, we introduce a spatiotemporal gyroscope attention mechanism that dynamically captures evolving multiscale patterns across both time and space. For pre-training, we curate MillionST, a large-scale dataset of one million images from 100,000 geographic locations, each captured across 10 temporal phases over five years, encompassing diverse geospatial changes and seasonal variations. Leveraging this dataset, we adapt masked image modeling to pre-train TiMo, enabling it to effectively learn and encode generalizable spatiotemporal representations.Extensive experiments across multiple spatiotemporal tasks-including deforestation monitoring, land cover segmentation, crop type classification, and flood detection-demonstrate TiMo's superiority over state-of-the-art methods. Code, model, and dataset will be released at https://github.com/MiliLab/TiMo.
- Abstract(参考訳): 衛星画像時系列(SITS)は地球表面の連続的な観測を提供し、環境管理や災害評価などの応用に欠かせないものである。
しかし、既存の時空間基底モデルは、陸地オブジェクト間の多スケール時空間関係を明示的に捉えることなく、時間列全体を符号化するプレーン・ビジョン・トランスフォーマーに依存している。
この制限は下流タスクにおける効果を妨げる。
この課題を克服するために,SITS解析に適した新しい階層型視覚トランスフォーマー基盤モデルTiMoを提案する。
その中心となるのは、時間と空間の両方にわたって進化するマルチスケールパターンを動的にキャプチャする時空間ジャイロスコープアテンション機構である。
事前トレーニングのために、MillionSTは10万の地理的位置から100万の画像の大規模なデータセットをキュレートし、それぞれが5年間で10の時間的フェーズにわたってキャプチャされ、多様な地理空間変化と季節変動を含む。
このデータセットを活用することで、マスク付き画像モデリングを事前訓練したTiMoに適用し、一般的な時空間表現を効果的に学習し、エンコードすることができる。
コード、モデル、データセットはhttps://github.com/MiliLab/TiMoでリリースされる。
関連論文リスト
- UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines [64.84631333071728]
本稿では,時間的モデリングのためのトランスフォーマーベースの統合フレームワークであるbfUnistageを紹介する。
我々の研究は、タスク固有の視覚テキストが時間学習のための一般化可能なモデルを構築することができることを示した。
また、時間的ダイナミクスを明示的に組み込むための時間的モジュールも導入する。
論文 参考訳(メタデータ) (2025-03-26T17:33:23Z) - SatMamba: Development of Foundation Models for Remote Sensing Imagery Using State Space Models [0.0]
ファンデーションモデルは、自己教師付きアルゴリズムを通じて、大規模なラベル付けされていないデータセットで事前訓練されたディープラーニングモデルを指す。
リモートセンシングのための様々な基礎モデルが開発されている。
本研究では、マスク付きオートエンコーダとステートスペースモデルを組み合わせた新しい事前トレーニングフレームワークであるSatMambaを提案する。
論文 参考訳(メタデータ) (2025-02-01T14:07:21Z) - EarthView: A Large Scale Remote Sensing Dataset for Self-Supervision [72.84868704100595]
本稿では,地球モニタリングタスクにおける深層学習アプリケーションを強化することを目的とした,リモートセンシングデータの自己監督を目的としたデータセットを提案する。
このデータセットは15テラピクセルのグローバルリモートセンシングデータにまたがっており、NEON、Sentinel、Satellogicによる1mの空間解像度データの新たなリリースなど、さまざまなソースの画像を組み合わせている。
このデータセットは、リモートセンシングデータの異なる課題に取り組むために開発されたMasked Autoencoderである。
論文 参考訳(メタデータ) (2025-01-14T13:42:22Z) - Deep Multimodal Fusion for Semantic Segmentation of Remote Sensing Earth Observation Data [0.08192907805418582]
本稿では,セマンティックセグメンテーションのための後期融合深層学習モデル(LF-DLM)を提案する。
1つのブランチは、UNetFormerがキャプチャした空中画像の詳細なテクスチャと、ViT(Multi-Axis Vision Transformer)バックボーンを統合する。
もう一方のブランチは、U-ViNet(U-TAE)を用いてSentinel-2衛星画像Max時系列から複雑な時間ダイナミクスをキャプチャする。
論文 参考訳(メタデータ) (2024-10-01T07:50:37Z) - SpectralEarth: Training Hyperspectral Foundation Models at Scale [47.93167977587301]
ハイパースペクトル基礎モデルの事前学習を目的とした大規模マルチ時間データセットであるSpectralEarthを紹介する。
我々は、最先端の自己教師付き学習(SSL)アルゴリズムを用いて、SpectralEarthの一連の基礎モデルを事前訓練する。
我々は、土地被覆と収穫型マッピングのための4つの下流データセットを構築し、モデル評価のためのベンチマークを提供する。
論文 参考訳(メタデータ) (2024-08-15T22:55:59Z) - SatSwinMAE: Efficient Autoencoding for Multiscale Time-series Satellite Imagery [1.6180992915701702]
衛星時系列データのための時間情報を統合するために,SwinEモデルを拡張した。
このアーキテクチャでは、階層的な3D Masked Autoencoder (MAE) と Video Swin Transformer ブロックを採用している。
提案手法は, 既存の基盤モデルに対して, 評価された下流タスクすべてに対して, 大幅な性能向上を図っている。
論文 参考訳(メタデータ) (2024-05-03T22:55:56Z) - Timer: Generative Pre-trained Transformers Are Large Time Series Models [83.03091523806668]
本稿では,大規模時系列モデル(LTSM)の早期開発を目的とした。
事前トレーニング中に、最大10億のタイムポイントを持つ大規模なデータセットをキュレートします。
多様なアプリケーションのニーズを満たすため,予測,計算,時系列の異常検出を統一的な生成タスクに変換する。
論文 参考訳(メタデータ) (2024-02-04T06:55:55Z) - Unsupervised 4D LiDAR Moving Object Segmentation in Stationary Settings
with Multivariate Occupancy Time Series [62.997667081978825]
静止センサから記録された4次元LiDARデータにおける非教師なし移動物体セグメンテーション(MOS)の問題に対処する。
教師なしMOSの問題を緩和する時系列に基づく新しい4次元LiDAR表現を提案する。
Raw KITTIデータセットによる静止シーンの実験では、完全に教師なしのアプローチが、教師付き最先端アプローチに匹敵するパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2022-12-30T14:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。