論文の概要: Temporal-Spectral-Spatial Unified Remote Sensing Dense Prediction
- arxiv url: http://arxiv.org/abs/2505.12280v2
- Date: Tue, 24 Jun 2025 06:12:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 15:36:08.708447
- Title: Temporal-Spectral-Spatial Unified Remote Sensing Dense Prediction
- Title(参考訳): 時間-スペクトル-空間-空間統合型リモートセンシング線量予測
- Authors: Sijie Zhao, Feng Liu, Enzhuo Zhang, Yiqing Guo, Pengfeng Xiao, Lei Bai, Xueliang Zhang, Hao Chen, Zhenwei Shi, Wanli Ouyang,
- Abstract要約: リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
トレーニング可能なタスクの埋め込みにモデルを条件付けすることで、単一のアーキテクチャ内で異なる密集した予測タスクを統一する。
- 参考スコア(独自算出の注目度): 62.376936772702905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of multi-source remote sensing data has propelled the development of deep learning for dense prediction, yet significant challenges in data and task unification persist. Current deep learning architectures for remote sensing are fundamentally rigid. They are engineered for fixed input-output configurations, restricting their adaptability to the heterogeneous spatial, temporal, and spectral dimensions inherent in real-world data. Furthermore, these models neglect the intrinsic correlations among semantic segmentation, binary change detection, and semantic change detection, necessitating the development of distinct models or task-specific decoders. This paradigm is also constrained to a predefined set of output semantic classes, where any change to the classes requires costly retraining. To overcome these limitations, we introduce the Spatial-Temporal-Spectral Unified Network (STSUN) for unified modeling. STSUN can adapt to input and output data with arbitrary spatial sizes, temporal lengths, and spectral bands by leveraging their metadata for a unified representation. Moreover, STSUN unifies disparate dense prediction tasks within a single architecture by conditioning the model on trainable task embeddings. Similarly, STSUN facilitates flexible prediction across any set of semantic categories by integrating trainable category embeddings as metadata. Extensive experiments on multiple datasets with diverse STS configurations in multiple scenarios demonstrate that a single STSUN model effectively adapts to heterogeneous inputs and outputs, unifying various dense prediction tasks and diverse semantic class predictions. The proposed approach consistently achieves state-of-the-art performance, highlighting its robustness and generalizability for complex remote sensing applications.
- Abstract(参考訳): マルチソースリモートセンシングデータの拡散は、密集予測のためのディープラーニングの開発を促進するが、データとタスクの統一における重大な課題は継続している。
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
それらは固定された入力出力構成のために設計され、現実世界のデータに固有の異種空間、時間、スペクトル次元への適応性を制限する。
さらに、これらのモデルは、意味的セグメンテーション、バイナリ変化検出、意味的変化検出の固有の相関を無視し、異なるモデルやタスク固有のデコーダの開発を必要とする。
このパラダイムは、事前に定義された出力セマンティッククラスのセットにも制約される。
これらの制約を克服するために、統一モデリングのための空間時間スペクトル統一ネットワーク(STSUN)を導入する。
STSUNは、メタデータを統一表現に活用することにより、任意の空間サイズ、時間長、スペクトル帯域の入力および出力データに適応することができる。
さらにSTSUNは、トレーニング可能なタスクの埋め込みにモデルを条件付けすることで、単一のアーキテクチャ内で異なる密集予測タスクを統一する。
同様にSTSUNは、トレーニング可能なカテゴリ埋め込みをメタデータとして統合することにより、セマンティックカテゴリの任意のセットにわたって柔軟な予測を容易にする。
複数のシナリオにおける多様なSTS構成を持つ複数のデータセットに対する大規模な実験は、単一のSTSUNモデルが不均一な入力と出力に効果的に適応し、様々な密接な予測タスクと多様なセマンティッククラス予測を統一することを示した。
提案手法は、複雑なリモートセンシングアプリケーションに対するロバスト性と一般化性を強調し、最先端の性能を一貫して達成する。
関連論文リスト
- STaRFormer: Semi-Supervised Task-Informed Representation Learning via Dynamic Attention-Based Regional Masking for Sequential Data [4.351581973358463]
トランスフォーマーベースのアプローチであるSTaRFormerは、シーケンシャルモデリングのための普遍的なフレームワークとして機能する。
STaRFormerは、動的注意に基づく領域マスキングスキームと半教師付きコントラスト学習を組み合わせて、タスク固有の潜在表現を強化する。
論文 参考訳(メタデータ) (2025-04-14T11:03:19Z) - UrbanSAM: Learning Invariance-Inspired Adapters for Segment Anything Models in Urban Construction [51.54946346023673]
都市形態は本質的に複雑で、様々な形状と様々なスケールの不規則な物体がある。
Segment Anything Model (SAM) は複雑なシーンのセグメンテーションにおいて大きな可能性を示している。
本研究では,複雑な都市環境の分析に特化して設計されたSAMのカスタマイズ版であるUrbanSAMを提案する。
論文 参考訳(メタデータ) (2025-02-21T04:25:19Z) - PolSAM: Polarimetric Scattering Mechanism Informed Segment Anything Model [76.95536611263356]
PolSARデータは、そのリッチで複雑な特徴のために、ユニークな課題を提示する。
複素数値データ、偏光特性、振幅画像などの既存のデータ表現が広く使われている。
PolSARのほとんどの機能抽出ネットワークは小さく、機能を効果的にキャプチャする能力を制限している。
本稿では,ドメイン固有の散乱特性と新規なプロンプト生成戦略を統合したSegment Anything Model (SAM) であるPolarimetric Scattering Mechanism-Informed SAM (PolSAM)を提案する。
論文 参考訳(メタデータ) (2024-12-17T09:59:53Z) - Transforming Multidimensional Time Series into Interpretable Event Sequences for Advanced Data Mining [5.2863523790908955]
本稿では,多次元時系列解析における従来の手法の限界に対処する新しい表現モデルを提案する。
提案するフレームワークは,ITインフラの監視と最適化,継続的な患者モニタリングによる診断,トレンド分析,インターネットビジネスによるユーザ行動の追跡,予測など,さまざまな分野のアプリケーションに対して大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-09-22T06:27:07Z) - TimeDiT: General-purpose Diffusion Transformers for Time Series Foundation Model [11.281386703572842]
TimeDiTは時間依存性学習と確率的サンプリングを組み合わせた拡散トランスフォーマーモデルである。
TimeDiTは、さまざまなタスクにわたるトレーニングと推論プロセスを調和させるために、統一的なマスキングメカニズムを採用している。
我々の体系的評価は、ゼロショット/ファインチューニングによる予測と計算という基本的なタスクにおいて、TimeDiTの有効性を示す。
論文 参考訳(メタデータ) (2024-09-03T22:31:57Z) - Paving the way toward foundation models for irregular and unaligned Satellite Image Time Series [0.0]
衛星画像の空間的, スペクトル的, 時間的次元を考慮したALISEを提案する。
SITSで現在利用可能なSSLモデルとは異なり、ALISEはSITSを共通の学習された時間的プロジェクション空間に投影するための柔軟なクエリメカニズムを組み込んでいる。
PASTIS, 土地被覆区分 (MultiSenGE) , 新たな作物変化検出データセットの3つの下流課題を通じて, 生産された表現の質を評価する。
論文 参考訳(メタデータ) (2024-07-11T12:42:10Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。