論文の概要: SITS-DECO: A Generative Decoder Is All You Need For Multitask Satellite Image Time Series Modelling
- arxiv url: http://arxiv.org/abs/2510.21813v1
- Date: Tue, 21 Oct 2025 14:42:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.537867
- Title: SITS-DECO: A Generative Decoder Is All You Need For Multitask Satellite Image Time Series Modelling
- Title(参考訳): SITS-DECO: マルチタスク衛星画像時系列モデリングに必要なデコーダ
- Authors: Samuel J. Barrett, Docko Sow,
- Abstract要約: 本稿では,EOデータに統一シーケンスフレーミングを適用する概念実証モデルであるSITS-DECOを紹介する。
モデルが単一統一アーキテクチャ内で複数の教師付きタスクや自己監督型タスクを実行できることを示す。
単純さと空間的文脈の欠如にもかかわらず、SITS-DECOは作物型分類におけるより大きなEO基盤モデルよりも優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Earth Observation (EO) Foundation Modelling (FM) holds great promise for simplifying and improving the use of EO data for diverse real-world tasks. However, most existing models require additional adaptation before they can be used and are structured rigidly around particular data sources or training approaches. To address this, we take inspiration from large language models, where diverse tasks, both pre-training and downstream, are implicitly captured through next-token prediction over unified token sequences, leveraging the structure and diversity of the training data. We introduce SITS-DECO (Satellite Image Time Series-DECoder Only), a proof-of-concept generative model that applies this unified-sequence framing to EO data. Using a simple GPT-style decoder-only architecture, and demonstrate its ability to perform useful EO tasks (pixel-wise, multi-temporal, multi-modal crop-type classification) in a purely generative framework. Through symbolic prompting, we show that the model can perform multiple supervised and self-supervised tasks within a single unified architecture, without task- or modality-specific adaptation. Despite its simplicity and lack of spatial context, SITS-DECO outperforms much larger EO foundation models on crop-type classification (PASTIS-R) demonstrating that dense temporal sequence modelling is a critical missing ingredient in the current paradigm. This work exemplifies a data-centric modelling paradigm in which capability arises from the diversity and structure of the training data rather than from architectural complexity. SITS-DECO provides a lightweight, practical route to multi-modal, multi-task EO modelling, and a conceptual bridge toward future generative EO foundation models.
- Abstract(参考訳): 地球観測(EO)ファウンデーション・モデリング(FM)は、様々な現実世界のタスクにおけるEOデータの利用を簡素化し、改善するための大きな約束を持っている。
しかし、既存のモデルの多くは使用前に追加の適応を必要とし、特定のデータソースやトレーニングアプローチを中心に厳格に構造化されている。
これを解決するために、私たちは、トレーニング前と下流の両方で多様なタスクが、トレーニングデータの構造と多様性を利用して、統一されたトークンシーケンスに対する次のトーケン予測によって暗黙的にキャプチャされる、大規模な言語モデルからインスピレーションを得ます。
SITS-DECO(Satellite Image Time Series-DECoder Only)は,この統一シーケンスフレーミングをEOデータに適用した概念生成モデルである。
単純なGPTスタイルのデコーダのみのアーキテクチャを用いて、純粋な生成フレームワークで有用なEOタスク(ピクセルワイド、マルチテンポラル、マルチモーダルの作物タイプ分類)を実行する能力を実証する。
シンボリック・プロンプトにより、タスクやモダリティ固有の適応なしに、単一の統一アーキテクチャ内で複数の教師付きおよび自己教師付きタスクを実行できることを示す。
その単純さと空間的文脈の欠如にもかかわらず、SITS-DECOは作物型分類(PASTIS-R)においてはるかに大きなEO基盤モデルより優れており、密度時間列モデリングが現在のパラダイムにおいて欠落している重要な要素であることを示している。
この研究は、アーキテクチャ上の複雑さではなく、トレーニングデータの多様性と構造から能力が生まれる、データ中心のモデリングパラダイムを例示します。
SITS-DECOは、マルチモーダルなマルチタスクEOモデリングへの軽量で実用的なルートを提供し、将来の生成EO基盤モデルへの概念的ブリッジを提供する。
関連論文リスト
- NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - MultiMAE Meets Earth Observation: Pre-training Multi-modal Multi-task Masked Autoencoders for Earth Observation Tasks [11.359741665798195]
本稿では,地球観測(EO)データに対する,より柔軟なマルチモーダル・マルチタスク事前学習戦略について検討する。
具体的には,マルチモーダルなマルチタスク・マスケッド・オートエンコーダ(MultiMAE)を採用し,多様な入力モダリティを再構成することによって事前学習を行う。
提案手法は,モダリティ固有の事前学習モデルを必要とせず,多様な入力構成を処理し,高い柔軟性を示す。
論文 参考訳(メタデータ) (2025-05-20T22:24:36Z) - UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines [64.84631333071728]
本稿では,時間的モデリングのためのトランスフォーマーベースの統合フレームワークであるbfUnistageを紹介する。
我々の研究は、タスク固有の視覚テキストが時間学習のための一般化可能なモデルを構築することができることを示した。
また、時間的ダイナミクスを明示的に組み込むための時間的モジュールも導入する。
論文 参考訳(メタデータ) (2025-03-26T17:33:23Z) - UniTS: A Unified Multi-Task Time Series Model [31.675845788410246]
UniTSは、予測タスクと生成タスクを単一のフレームワークに統合した、統合されたマルチタスク時系列モデルである。
UniTSは、人間の活動センサー、ヘルスケア、エンジニアリング、ファイナンスにまたがる38のデータセットでテストされている。
論文 参考訳(メタデータ) (2024-02-29T21:25:58Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。