論文の概要: VistaFormer: Scalable Vision Transformers for Satellite Image Time Series Segmentation
- arxiv url: http://arxiv.org/abs/2409.08461v1
- Date: Fri, 13 Sep 2024 01:19:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 18:07:55.085264
- Title: VistaFormer: Scalable Vision Transformers for Satellite Image Time Series Segmentation
- Title(参考訳): VistaFormer: 衛星画像時系列セグメンテーションのためのスケーラブルなビジョントランス
- Authors: Ezra MacDonald, Derek Jacoby, Yvonne Coady,
- Abstract要約: リモートセンシング画像のセマンティックセグメンテーションのための軽量トランスフォーマーベースモデルアーキテクチャであるVistaFormerを紹介する。
VistaFormerは、モデルアーキテクチャを単純化し、時間的および空間的コードを補間する必要性を取り除く、位置自由な自己アテンション層を使用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce VistaFormer, a lightweight Transformer-based model architecture for the semantic segmentation of remote-sensing images. This model uses a multi-scale Transformer-based encoder with a lightweight decoder that aggregates global and local attention captured in the encoder blocks. VistaFormer uses position-free self-attention layers which simplifies the model architecture and removes the need to interpolate temporal and spatial codes, which can reduce model performance when training and testing image resolutions differ. We investigate simple techniques for filtering noisy input signals like clouds and demonstrate that improved model scalability can be achieved by substituting Multi-Head Self-Attention (MHSA) with Neighbourhood Attention (NA). Experiments on the PASTIS and MTLCC crop-type segmentation benchmarks show that VistaFormer achieves better performance than comparable models and requires only 8% of the floating point operations using MHSA and 11% using NA while also using fewer trainable parameters. VistaFormer with MHSA improves on state-of-the-art mIoU scores by 0.1% on the PASTIS benchmark and 3% on the MTLCC benchmark while VistaFormer with NA improves on the MTLCC benchmark by 3.7%.
- Abstract(参考訳): リモートセンシング画像のセマンティックセグメンテーションのための軽量トランスフォーマーベースモデルアーキテクチャであるVistaFormerを紹介する。
このモデルは、軽量デコーダを備えたマルチスケールトランスフォーマーベースのエンコーダを使用して、エンコーダブロックでキャプチャされたグローバルおよびローカルの注意を集約する。
VistaFormerは、モデルアーキテクチャを単純化し、時間的および空間的なコードを補間する必要をなくし、画像解像度の異なるトレーニングやテストを行う際のモデルパフォーマンスを低減できる位置自由な自己アテンション層を使用している。
雲のようなノイズの多い入力信号をフィルタリングする簡単な手法について検討し,MHSA(Multi-Head Self-Attention)をNA(Neighbourhood Attention)に置き換えることで,モデルスケーラビリティの向上を実証する。
PASTISとMTLCCの作物型セグメンテーションベンチマークの実験では、VistaFormerは同等のモデルよりも性能が良く、MHSAを使った浮動小数点演算の8%しか必要とせず、NAを使った11%しか必要とせず、トレーニング可能なパラメータも少ないことが示されている。
MHSAのVistaFormerは、最先端のmIoUスコアをPASTISベンチマークで0.1%、MTLCCベンチマークで3%改善し、NAのVistaFormerはMTLCCベンチマークで3.7%改善した。
関連論文リスト
- Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models [111.97026994761254]
Mixture-of-Transformer (MoT) はスパースマルチモーダルトランスアーキテクチャである。
MoTはモデルの非埋め込みパラメータをモダリティで分離する。
複数の設定とモデルスケールでMoTを評価する。
論文 参考訳(メタデータ) (2024-11-07T18:59:06Z) - GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、二次的複雑性を伴う長距離依存のモデリングにおいて効果的な性能を示した。
しかし、純粋なSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最適性能の達成に関連する課題に直面している。
本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文 参考訳(メタデータ) (2024-07-18T17:59:58Z) - LCM: Locally Constrained Compact Point Cloud Model for Masked Point Modeling [47.94285833315427]
本稿では,局所的に制約されたコンパクト・エンコーダと局所的に制約されたMambaベースのデコーダからなる,局所的に制約されたコンパクト・ポイント・クラウド・モデルを提案する。
エンコーダは、パフォーマンスと効率のエレガントなバランスを達成するために、自己アテンションをローカルアグリゲーション層に置き換えます。
このデコーダは、高情報密度の未処理パッチからの点雲幾何学情報の知覚を最大化しつつ、線形複雑性を保証する。
論文 参考訳(メタデータ) (2024-05-27T13:19:23Z) - Scalable Visual State Space Model with Fractal Scanning [16.077348474371547]
State Space Models (SSM) はTransformerモデルの効率的な代替品として登場した。
本稿では, フラクタル走査曲線を用いたパッチシリアライゼーションを提案する。
画像分類,検出,セグメンテーションタスクにおいて,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-05-23T12:12:11Z) - Adapting LLaMA Decoder to Vision Transformer [65.47663195233802]
本研究は,LLaMAなどのデコーダのみのトランスフォーマーをコンピュータビジョン分野に適用できるかどうかを検討する。
まず、LLaMAのアーキテクチャと整合する標準的なViTを「LLaMAfy」と呼び、自己注意に因果マスクを直接適用することで、注意崩壊の問題が生じる。
我々は,訓練開始時の自己注意に因果マスクを徐々に導入し,最適化行動を容易にするソフトマスク戦略を開発する。
論文 参考訳(メタデータ) (2024-04-10T06:30:08Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Improve Supervised Representation Learning with Masked Image Modeling [30.30649867772395]
マスク付き画像モデリングを既存の教師付きトレーニングパラダイムに簡単に統合できる,シンプルで効果的なセットアップを提案する。
アーキテクチャの変更は最小限であり、この設定が学習した表現の質を向上させることができるという仮定のオーバーヘッドはない。
論文 参考訳(メタデータ) (2023-12-01T22:03:25Z) - ACORT: A Compact Object Relation Transformer for Parameter Efficient
Image Captioning [13.659124860884912]
画像キャプションモデル削減のための3つの方法を提案する。
提案したACORTモデルはベースラインモデルよりも3.7倍から21.6倍少ないパラメータを持つ。
その結果、ACORTモデルはベースラインやSOTAアプローチと競合することを示した。
論文 参考訳(メタデータ) (2022-02-11T05:10:28Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Bottleneck Transformers for Visual Recognition [97.16013761605254]
視覚タスクに自己注意を組み込んだ強力なバックボーンアーキテクチャであるBoTNetを提案する。
我々は、ImageNetベンチマークにおいて84.7%のトップ1の精度で高いパフォーマンスを達成するモデルを提案する。
私たちのシンプルで効果的なアプローチが、将来のビジョンのための自己注意モデル研究の強力なベースラインになることを期待しています。
論文 参考訳(メタデータ) (2021-01-27T18:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。