論文の概要: ViTs for SITS: Vision Transformers for Satellite Image Time Series
- arxiv url: http://arxiv.org/abs/2301.04944v3
- Date: Fri, 14 Apr 2023 09:56:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 16:26:27.211851
- Title: ViTs for SITS: Vision Transformers for Satellite Image Time Series
- Title(参考訳): SITS用ViT:衛星画像時系列用ビジョントランス
- Authors: Michail Tarasiou, Erik Chavez, Stefanos Zafeiriou
- Abstract要約: ビジョン変換器(ViT)に基づく一般衛星画像時系列(SITS)処理のための完全アテンショナルモデルを提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
- 参考スコア(独自算出の注目度): 52.012084080257544
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper we introduce the Temporo-Spatial Vision Transformer (TSViT), a
fully-attentional model for general Satellite Image Time Series (SITS)
processing based on the Vision Transformer (ViT). TSViT splits a SITS record
into non-overlapping patches in space and time which are tokenized and
subsequently processed by a factorized temporo-spatial encoder. We argue, that
in contrast to natural images, a temporal-then-spatial factorization is more
intuitive for SITS processing and present experimental evidence for this claim.
Additionally, we enhance the model's discriminative power by introducing two
novel mechanisms for acquisition-time-specific temporal positional encodings
and multiple learnable class tokens. The effect of all novel design choices is
evaluated through an extensive ablation study. Our proposed architecture
achieves state-of-the-art performance, surpassing previous approaches by a
significant margin in three publicly available SITS semantic segmentation and
classification datasets. All model, training and evaluation codes are made
publicly available to facilitate further research.
- Abstract(参考訳): 本稿では、視覚トランスフォーマ(vit)に基づく一般衛星画像時系列(sits)処理のためのフルアテンションモデルであるtemporo-spatial vision transformer(tsvit)を提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
自然画像とは対照的に、時空間分解はSITS処理においてより直感的であり、この主張に対する実験的証拠を提示する。
さらに,獲得時間固有の時間的位置符号化と複数の学習可能なクラストークンの2つの新しいメカニズムを導入することにより,モデルの識別能力を高める。
新たな設計選択が与える影響は広範なアブレーション研究を通じて評価される。
提案アーキテクチャは,3つのSITSセマンティックセグメンテーションと分類データセットにおいて,従来のアプローチをはるかに上回り,最先端の性能を実現する。
すべてのモデル、トレーニング、評価コードは、さらなる研究を促進するために公開されています。
関連論文リスト
- PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - Multi-Modal Vision Transformers for Crop Mapping from Satellite Image Time Series [2.5245269564204653]
既存の最先端アーキテクチャでは、SITSの空間次元に対する時間次元と畳み込みを処理するために自己アテンション機構を使用している。
単一モーダルSITSからの作物マッピングにおける純粋に注意に基づくアーキテクチャの成功により、我々は複数のマルチモーダルマルチテンポラルトランスフォーマーベースのアーキテクチャを導入する。
実験結果から, 畳み込みと自己認識の両コンポーネントによる最先端アーキテクチャの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-06-24T10:40:46Z) - TimeTuner: Diagnosing Time Representations for Time-Series Forecasting
with Counterfactual Explanations [3.8357850372472915]
本稿では,モデル行動が局所化,定常性,時系列表現の相関とどのように関連しているかをアナリストが理解するために,新しいビジュアル分析フレームワークであるTimeTunerを提案する。
TimeTunerは時系列表現を特徴付けるのに役立ち、機能エンジニアリングのプロセスを導くのに役立ちます。
論文 参考訳(メタデータ) (2023-07-19T11:40:15Z) - Revisiting the Encoding of Satellite Image Time Series [2.5874041837241304]
画像時系列(SITS)時間学習は、高時間分解能と不規則な取得時間のために複雑である。
我々は、クエリベースのトランスフォーマーデコーダを採用する最近のトレンドに触発されて、直接セット予測問題としてSITS処理の新たな視点を開発する。
衛星PASTISベンチマークデータセットを用いて,SOTA(State-of-the-art)の新たな結果を得た。
論文 参考訳(メタデータ) (2023-05-03T12:44:20Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - SatMAE: Pre-training Transformers for Temporal and Multi-Spectral
Satellite Imagery [74.82821342249039]
Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。
時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
論文 参考訳(メタデータ) (2022-07-17T01:35:29Z) - Tampered VAE for Improved Satellite Image Time Series Classification [1.933681537640272]
ピラミッド時間系列変換器(PTST)は時間次元のみで動作する。
本稿では,クラスタリング機構を潜在空間に導入する分類フレンドリなVAEフレームワークを提案する。
提案するフレームワークが,SITSによる作物分類のベースラインとして機能し,モジュール性と簡易性を期待する。
論文 参考訳(メタデータ) (2022-03-30T08:48:06Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。