論文の概要: Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery
- arxiv url: http://arxiv.org/abs/2403.05419v1
- Date: Fri, 8 Mar 2024 16:18:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 13:05:03.235450
- Title: Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery
- Title(参考訳): マルチスペクトル衛星画像のための変圧器事前学習の再考
- Authors: Mubashir Noman, Muzammal Naseer, Hisham Cholakkal, Rao Muhammad Anwar,
Salman Khan, Fahad Shahbaz Khan
- Abstract要約: 教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
- 参考スコア(独自算出の注目度): 78.43828998065071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in unsupervised learning have demonstrated the ability of
large vision models to achieve promising results on downstream tasks by
pre-training on large amount of unlabelled data. Such pre-training techniques
have also been explored recently in the remote sensing domain due to the
availability of large amount of unlabelled data. Different from standard
natural image datasets, remote sensing data is acquired from various sensor
technologies and exhibit diverse range of scale variations as well as
modalities. Existing satellite image pre-training methods either ignore the
scale information present in the remote sensing imagery or restrict themselves
to use only a single type of data modality. In this paper, we re-visit
transformers pre-training and leverage multi-scale information that is
effectively utilized with multiple modalities. Our proposed approach, named
SatMAE++, performs multi-scale pre-training and utilizes convolution based
upsampling blocks to reconstruct the image at higher scales making it
extensible to include more scales. Compared to existing works, the proposed
SatMAE++ with multi-scale pre-training is equally effective for both optical as
well as multi-spectral imagery. Extensive experiments on six datasets reveal
the merits of proposed contributions, leading to state-of-the-art performance
on all datasets. SatMAE++ achieves mean average precision (mAP) gain of 2.5\%
for multi-label classification task on BigEarthNet dataset. Our code and
pre-trained models are available at \url{https://github.com/techmn/satmae_pp}.
- Abstract(参考訳): 教師なし学習の最近の進歩は、大量のラベルなしデータを事前学習することで、ダウンストリームタスクで有望な結果を達成するための大きなビジョンモデルの能力を示している。
このような事前トレーニング技術は、大量のラベルなしデータの利用可能性から、リモートセンシング領域でも近年研究されている。
標準の自然画像データセットとは異なり、リモートセンシングデータは様々なセンサー技術から取得され、様々なスケールのバリエーションとモダリティを示す。
既存の衛星画像事前訓練方法は、リモートセンシング画像に存在するスケール情報を無視するか、あるいは単一のデータモダリティのみを使用するように制限する。
本稿では,複数のモダリティを効果的に活用するマルチスケール情報を事前学習し,活用するトランスフォーマティブを再検討する。
提案手法であるsatmae++は,マルチスケール事前トレーニングを行い,畳み込みに基づくアップサンプリングブロックを用いて高スケールで画像を再構成することにより,拡張性を高めた。
既存の研究と比較すると、マルチスケール事前トレーニングを備えたSatMAE++は、光学およびマルチスペクトル画像の両方に等しく有効である。
6つのデータセットに対する大規模な実験は、提案されたコントリビューションのメリットを明らかにし、すべてのデータセットに対する最先端のパフォーマンスをもたらす。
SatMAE++は、BigEarthNetデータセット上のマルチラベル分類タスクにおいて平均平均精度(mAP)が2.5\%向上する。
私たちのコードと事前トレーニングされたモデルは、 \url{https://github.com/techmn/satmae_pp}で利用可能です。
関連論文リスト
- MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning [9.540487697801531]
MMEarthは、グローバルスケールでの多様なマルチモーダル事前トレーニングデータセットである。
光衛星画像の汎用表現を学習するために,MP-MAE(Multi-Pretext Masked Autoencoder)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-04T23:16:48Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - SynDrone -- Multi-modal UAV Dataset for Urban Scenarios [11.338399194998933]
ピクセルレベルのアノテーションを持つ大規模な実際のデータセットの不足は、研究者にとって大きな課題となっている。
本研究では,複数の飛行高度で撮影された画像と3次元データを含むマルチモーダル合成データセットを提案する。
データセットは、UAVアプリケーションをターゲットにした新しいコンピュータビジョンメソッドの開発をサポートするために公開されます。
論文 参考訳(メタデータ) (2023-08-21T06:22:10Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Self-Supervised In-Domain Representation Learning for Remote Sensing
Image Scene Classification [1.0152838128195465]
ImageNetのトレーニング済み重量を様々なリモートセンシングタスクに転送すると、許容できる結果が得られる。
近年の研究では、自己教師あり学習手法が、より差別的で伝達しやすい視覚的特徴を捉えていることが示されている。
我々はこれらの事実に動機付けられ、対照的な自己教師付き学習を用いて、リモートセンシング画像のドメイン内表現を事前訓練する。
論文 参考訳(メタデータ) (2023-02-03T15:03:07Z) - SatMAE: Pre-training Transformers for Temporal and Multi-Spectral
Satellite Imagery [74.82821342249039]
Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。
時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
論文 参考訳(メタデータ) (2022-07-17T01:35:29Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Deep Multimodal Transfer-Learned Regression in Data-Poor Domains [0.0]
画像と特徴データのマルチモーダル学習のためのDMTL-R(Deep Multimodal Transfer-Learned Regressor)を提案する。
我々のモデルは、少量のトレーニング画像データに基づいて、与えられたトレーニング済みCNN重みのセットを微調整することができる。
各種CNNアーキテクチャからの事前学習重みを用いた位相場シミュレーションマイクロ構造画像とそれに付随する物理特徴集合を用いた結果を提案する。
論文 参考訳(メタデータ) (2020-06-16T16:52:44Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。