論文の概要: Multi-Modal Vision Transformers for Crop Mapping from Satellite Image Time Series
- arxiv url: http://arxiv.org/abs/2406.16513v1
- Date: Mon, 24 Jun 2024 10:40:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 15:14:19.648140
- Title: Multi-Modal Vision Transformers for Crop Mapping from Satellite Image Time Series
- Title(参考訳): 衛星画像時系列からの作物マッピングのためのマルチモーダル視覚変換器
- Authors: Theresa Follath, David Mickisch, Jan Hemmerling, Stefan Erasmi, Marcel Schwieder, Begüm Demir,
- Abstract要約: 既存の最先端アーキテクチャでは、SITSの空間次元に対する時間次元と畳み込みを処理するために自己アテンション機構を使用している。
単一モーダルSITSからの作物マッピングにおける純粋に注意に基づくアーキテクチャの成功により、我々は複数のマルチモーダルマルチテンポラルトランスフォーマーベースのアーキテクチャを導入する。
実験結果から, 畳み込みと自己認識の両コンポーネントによる最先端アーキテクチャの大幅な改善が示された。
- 参考スコア(独自算出の注目度): 2.5245269564204653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using images acquired by different satellite sensors has shown to improve classification performance in the framework of crop mapping from satellite image time series (SITS). Existing state-of-the-art architectures use self-attention mechanisms to process the temporal dimension and convolutions for the spatial dimension of SITS. Motivated by the success of purely attention-based architectures in crop mapping from single-modal SITS, we introduce several multi-modal multi-temporal transformer-based architectures. Specifically, we investigate the effectiveness of Early Fusion, Cross Attention Fusion and Synchronized Class Token Fusion within the Temporo-Spatial Vision Transformer (TSViT). Experimental results demonstrate significant improvements over state-of-the-art architectures with both convolutional and self-attention components.
- Abstract(参考訳): 衛星画像時系列(SITS)から,異なる衛星センサで取得した画像を用いて,作物マッピングの枠組みにおける分類性能を向上させることが示されている。
既存の最先端アーキテクチャでは、SITSの空間次元に対する時間次元と畳み込みを処理するために自己アテンション機構を使用している。
単一モーダルSITSからの作物マッピングにおける純粋に注意に基づくアーキテクチャの成功により、我々は複数のマルチモーダルマルチテンポラルトランスフォーマーベースのアーキテクチャを導入する。
具体的には,時間空間視変換器(TSViT)における早期核融合,クロスアテンション核融合,同期クラストークン核融合の有効性について検討した。
実験結果から, 畳み込みと自己認識の両コンポーネントによる最先端アーキテクチャの大幅な改善が示された。
関連論文リスト
- Continuous Urban Change Detection from Satellite Image Time Series with Temporal Feature Refinement and Multi-Task Integration [5.095834019284525]
都市化は前例のない速度で進行し、環境と人間の幸福に悪影響を及ぼす。
深層学習に基づく手法は,光衛星画像対による都市変化検出の有望な成果を得た。
本稿では,衛星画像時系列の連続した画像対の変化を識別する連続都市変化検出手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T10:53:57Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Revisiting the Encoding of Satellite Image Time Series [2.5874041837241304]
画像時系列(SITS)時間学習は、高時間分解能と不規則な取得時間のために複雑である。
我々は、クエリベースのトランスフォーマーデコーダを採用する最近のトレンドに触発されて、直接セット予測問題としてSITS処理の新たな視点を開発する。
衛星PASTISベンチマークデータセットを用いて,SOTA(State-of-the-art)の新たな結果を得た。
論文 参考訳(メタデータ) (2023-05-03T12:44:20Z) - ViTs for SITS: Vision Transformers for Satellite Image Time Series [52.012084080257544]
ビジョン変換器(ViT)に基づく一般衛星画像時系列(SITS)処理のための完全アテンショナルモデルを提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
論文 参考訳(メタデータ) (2023-01-12T11:33:07Z) - SatMAE: Pre-training Transformers for Temporal and Multi-Spectral
Satellite Imagery [74.82821342249039]
Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。
時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
論文 参考訳(メタデータ) (2022-07-17T01:35:29Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Multi-Modal Temporal Attention Models for Crop Mapping from Satellite
Time Series [7.379078963413671]
複数の作物マッピングタスクにまたがる時間的注意に基づく手法が最近成功し,これらのモデルがどのように複数のモードで操作できるのかを考察する。
我々は,新しいアプローチと訓練手順の簡単な調整を含む,複数の融合方式を実装し,評価する。
ほとんどのフュージョンスキームには利点と欠点があり、特定の設定に関連があることが示される。
次に,パーセル分類,画素ベースセグメンテーション,パン光学パーセルセグメンテーションなど,複数のタスクにまたがるマルチモーダルの利点を評価する。
論文 参考訳(メタデータ) (2021-12-14T17:05:55Z) - Twins: Revisiting Spatial Attention Design in Vision Transformers [81.02454258677714]
本稿では,注意深い空間的注意機構が最先端のスキームに対して好適に機能することを実証する。
Twins-PCPVTとTwins-SVTの2つのビジョントランスアーキテクチャを提案します。
提案するアーキテクチャは,現代のディープラーニングフレームワークに高度に最適化された行列乗算のみを含む,高効率かつ実装が容易である。
論文 参考訳(メタデータ) (2021-04-28T15:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。