論文の概要: Towards a Knowledge guided Multimodal Foundation Model for Spatio-Temporal Remote Sensing Applications
- arxiv url: http://arxiv.org/abs/2407.19660v2
- Date: Wed, 16 Oct 2024 21:18:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:16:58.570007
- Title: Towards a Knowledge guided Multimodal Foundation Model for Spatio-Temporal Remote Sensing Applications
- Title(参考訳): 時空間リモートセンシングのための知識ガイド型マルチモーダルファンデーションモデルの実現に向けて
- Authors: Praveen Ravirathinam, Ankush Khandelwal, Rahul Ghosh, Vipin Kumar,
- Abstract要約: 本稿では,事前学習タスクが複数のモーダル間の因果関係をキャプチャする基礎モデルフレームワークを提案する。
本手法は,MultiModal Variable Step Forecasting (MM-VSF) と呼ばれ,衛星画像の予測を事前訓練作業として利用する。
- 参考スコア(独自算出の注目度): 16.824262496666893
- License:
- Abstract: In recent years, there has been an increased interest in foundation models for geoscience due to the vast amount of Earth observing satellite imagery. Existing remote sensing foundation models make use of the various sources of spectral imagery to create large models pretrained on the task of masked reconstruction. In this paper, we present a foundation model framework, where the pretraining task captures the causal relationship between multiple modalities. Our framework leverages the knowledge guided principles that the spectral imagery captures the impact of the physical drivers on the environmental system, and that the relationship between them is governed by the characteristics of the system. Specifically, our method, called MultiModal Variable Step Forecasting (MM-VSF), uses forecasting of satellite imagery as a pretraining task and is able to capture the causal relationship between spectral imagery and weather. In our evaluation we show that the forecasting of satellite imagery using weather can be used as an effective pretraining task for foundation models. We further show the effectiveness of the embeddings produced by MM-VSF on the downstream tasks of pixel wise crop mapping and missing image prediction of spectral imagery, when compared with embeddings created by models trained in alternative pretraining settings including the traditional single modality input masked reconstruction.
- Abstract(参考訳): 近年、地球観測衛星画像が大量にあるため、地球科学の基礎モデルへの関心が高まっている。
既存のリモートセンシング基礎モデルでは、様々なスペクトル画像源を用いて、マスクされた復元作業で事前訓練された大きなモデルを作成する。
本稿では,複数モーダル間の因果関係を事前に学習する基礎モデルフレームワークを提案する。
筆者らの枠組みは, スペクトル画像が物理的要因が環境システムに与える影響を捉え, それらの関係がシステムの特性によって支配されるという, 知識指導の原則を生かしている。
具体的には,MultiModal Variable Step Forecasting (MM-VSF) と呼ばれる本手法では,衛星画像の予測を事前訓練作業として使用し,スペクトル画像と気象の因果関係を捉えることができる。
本評価では,気象を用いた衛星画像の予測が基礎モデルの効果的な事前学習課題として利用できることを示す。
さらに,MM-VSFが生成する埋め込みが,従来の単一モダリティ入力マスク再構成を含む事前学習環境下で訓練されたモデルによって作成された埋め込みモデルと比較した場合,画素ワイズマッピングの下流タスクやスペクトル画像のイメージ予測に有効であることを示す。
関連論文リスト
- Probing Fine-Grained Action Understanding and Cross-View Generalization of Foundation Models [13.972809192907931]
ファンデーションモデル(FM)は、広いデータセットでトレーニングされた大規模なニューラルネットワークである。
ビデオにおける人間の活動認識は、異なるアーキテクチャ間の競争によって駆動されるFMによって進歩している。
本稿では,視線変化が人体活動認識の微粒化における異なるFMに与える影響を実験的に評価する。
論文 参考訳(メタデータ) (2024-07-22T12:59:57Z) - Leveraging Neural Radiance Fields for Pose Estimation of an Unknown Space Object during Proximity Operations [14.624172952608653]
本稿では、未知のターゲットに「オフ・ザ・シェルフ」宇宙船のポーズ推定装置を適用可能な新しい手法を提案する。
対象画像のスパースコレクションを用いてNeRFモデルをトレーニングし,視点と照明の両面で多様な大きなデータセットを生成する。
本手法は,スパース画像の集合から,市販の宇宙船のポーズ推定ネットワークの訓練に有効であることが実証された。
論文 参考訳(メタデータ) (2024-05-21T12:34:03Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Exploring the Application of Large-scale Pre-trained Models on Adverse
Weather Removal [97.53040662243768]
ネットワークが異なる気象条件を適応的に処理できるようにするために,CLIP埋め込みモジュールを提案する。
このモジュールは、CLIP画像エンコーダによって抽出されたサンプル特定気象と、パラメータセットによって学習された分布特定情報を統合する。
論文 参考訳(メタデータ) (2023-06-15T10:06:13Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial
System Applications [0.0]
多目的追跡(MOT)は、軍事防衛分野における状況認識の重要な構成要素である。
本稿では,リアルタイムな状況下での騒音に対応するために,頑健なオブジェクト追跡アーキテクチャを提案する。
本稿では,遅延空間における実体軌道の予測にシーケンス・ツー・シーケンス・アーキテクチャを用いる,Deep Extended Kalman Filter (DeepEKF) と呼ばれるキネマティックな予測モデルを提案する。
論文 参考訳(メタデータ) (2021-10-05T13:50:38Z) - Multi-Branch Deep Radial Basis Function Networks for Facial Emotion
Recognition [80.35852245488043]
放射状基底関数(RBF)ユニットによって形成された複数の分岐で拡張されたCNNベースのアーキテクチャを提案する。
RBFユニットは、中間表現を用いて類似のインスタンスで共有される局所パターンをキャプチャする。
提案手法は,提案手法の競争力を高めるためのローカル情報の導入であることを示す。
論文 参考訳(メタデータ) (2021-09-07T21:05:56Z) - Contrastive Multiview Coding with Electro-optics for SAR Semantic
Segmentation [0.6445605125467573]
SARセマンティックセグメンテーションのためのマルチモーダル表現学習を提案する。
従来の研究とは異なり,本手法ではEO画像,SAR画像,ラベルマスクを併用した。
いくつかの実験により,本手法はモデル性能,サンプル効率,収束速度において既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-08-31T23:55:41Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。