論文の概要: Towards a Knowledge guided Multimodal Foundation Model for Spatio-Temporal Remote Sensing Applications
- arxiv url: http://arxiv.org/abs/2407.19660v1
- Date: Mon, 29 Jul 2024 02:49:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 15:16:04.605823
- Title: Towards a Knowledge guided Multimodal Foundation Model for Spatio-Temporal Remote Sensing Applications
- Title(参考訳): 時空間リモートセンシングのための知識ガイド型マルチモーダルファンデーションモデルの実現に向けて
- Authors: Praveen Ravirathinam, Ankush Khandelwal, Rahul Ghosh, Vipin Kumar,
- Abstract要約: 既存の基礎モデルは、様々なスペクトル画像源を用いて、マスク付き再構成タスクで事前訓練された大きなモデルを作成する。
本稿では,従来の単一モードマスマスマスキングオートエンコーダのファウンデーションモデルを超えた,リモートセンシング地学応用のための基礎モデリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.824262496666893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, there is increased interest in foundation models for geoscience due to vast amount of earth observing satellite imagery. Existing remote sensing foundation models make use of the various sources of spectral imagery to create large models pretrained on masked reconstruction task. The embeddings from these foundation models are then used for various downstream remote sensing applications. In this paper we propose a foundational modeling framework for remote sensing geoscience applications, that goes beyond these traditional single modality masked autoencoder family of foundation models. This framework leverages the knowledge guided principles that the spectral imagery captures the impact of the physical drivers on the environmental system, and that the relationship between them is governed by the characteristics of the system. Specifically, our method, called MultiModal Variable Step Forecasting (MM-VSF), uses mutlimodal data (spectral imagery and weather) as its input and a variable step forecasting task as its pretraining objective. In our evaluation we show forecasting of satellite imagery using weather can be used as an effective pretraining task for foundation models. We further show the effectiveness of the embeddings from MM-VSF on the downstream task of pixel wise crop mapping, when compared with a model trained in the traditional setting of single modality input and masked reconstruction based pretraining.
- Abstract(参考訳): 近年,衛星画像が大量に観測されているため,地球科学の基礎モデルへの関心が高まっている。
既存のリモートセンシング基盤モデルは、様々なスペクトル画像源を用いて、マスク付き再構成作業で事前訓練された大きなモデルを作成する。
これらの基礎モデルからの埋め込みは、様々な下流リモートセンシングアプリケーションに使用される。
本稿では,従来の単一モードマスマスマスキングオートエンコーダのファウンデーションモデルであるファウンデーションモデルを超えた,リモートセンシング地学応用のための基礎モデリングフレームワークを提案する。
この枠組みは、スペクトル画像が物理的ドライバが環境システムに与える影響を捉え、それらの関係がシステムの特性によって支配されるという知識的原則を活用する。
具体的には,MultiModal Variable Step Forecasting (MM-VSF) と呼ばれる本手法では,その入力としてマルチモーダルデータ(スペクトル画像と天気)を使用し,事前学習対象として可変ステップ予測タスクを用いる。
本評価では,気象を用いた衛星画像の予測を基礎モデルの効果的な事前学習作業として利用できることを示す。
さらに,MM-VSFからの埋め込みが画素ワイドマッピングの下流作業に与える影響を,従来の単一モード入力とマスク付き再構成による事前学習で訓練されたモデルと比較した。
関連論文リスト
- Improving satellite imagery segmentation using multiple Sentinel-2 revisits [0.0]
我々は、微調整された事前学習されたリモートセンシングモデルのフレームワークにおいて、リビジョンを使用する最善の方法を探る。
モデル潜在空間における複数の再試行からの融合表現は、他の再試行法よりも優れていることが判明した。
SWINトランスフォーマーベースのアーキテクチャは、U-netやViTベースのモデルよりも優れている。
論文 参考訳(メタデータ) (2024-09-25T21:13:33Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Exploring the Application of Large-scale Pre-trained Models on Adverse
Weather Removal [97.53040662243768]
ネットワークが異なる気象条件を適応的に処理できるようにするために,CLIP埋め込みモジュールを提案する。
このモジュールは、CLIP画像エンコーダによって抽出されたサンプル特定気象と、パラメータセットによって学習された分布特定情報を統合する。
論文 参考訳(メタデータ) (2023-06-15T10:06:13Z) - Multi-modal learning for geospatial vegetation forecasting [1.8180482634934092]
我々は,高分解能植生予測に特化して設計された最初のデータセットであるGreenEarthNetを紹介する。
また、Sentinel 2衛星画像から植生の緑度を予測するための新しい深層学習手法であるContextformerを提案する。
我々の知る限り、この研究は、季節的サイクルを超えた異常を捉えることができる微細な解像度で大陸規模の植生モデリングのための最初のモデルを示す。
論文 参考訳(メタデータ) (2023-03-28T17:59:05Z) - RelPose: Predicting Probabilistic Relative Rotation for Single Objects
in the Wild [73.1276968007689]
本稿では、任意のオブジェクトの複数の画像からカメラ視点を推定するデータ駆動手法について述べる。
本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-11T17:59:59Z) - SatMAE: Pre-training Transformers for Temporal and Multi-Spectral
Satellite Imagery [74.82821342249039]
Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。
時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
論文 参考訳(メタデータ) (2022-07-17T01:35:29Z) - A Trainable Spectral-Spatial Sparse Coding Model for Hyperspectral Image
Restoration [36.525810477650026]
ハイパースペクトルイメージングは様々な用途に新しい視点を提供する。
地上に正確な「クリーン」ハイパースペクトル信号がないため、修復作業は困難である。
本稿では、疎結合な符号化原理に基づくハイブリッドアプローチを提唱する。
論文 参考訳(メタデータ) (2021-11-18T14:16:04Z) - Contrastive Multiview Coding with Electro-optics for SAR Semantic
Segmentation [0.6445605125467573]
SARセマンティックセグメンテーションのためのマルチモーダル表現学習を提案する。
従来の研究とは異なり,本手法ではEO画像,SAR画像,ラベルマスクを併用した。
いくつかの実験により,本手法はモデル性能,サンプル効率,収束速度において既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-08-31T23:55:41Z) - Enhancing Photorealism Enhancement [83.88433283714461]
本稿では,畳み込みネットワークを用いた合成画像のリアリズム向上手法を提案する。
一般的に使用されるデータセットのシーンレイアウトの分布を分析し、重要な方法で異なることを見つけます。
近年のイメージ・ツー・イメージ翻訳法と比較して,安定性とリアリズムの大幅な向上が報告されている。
論文 参考訳(メタデータ) (2021-05-10T19:00:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。