論文の概要: Remote Sensing Scene Classification with Masked Image Modeling (MIM)
- arxiv url: http://arxiv.org/abs/2302.14256v2
- Date: Fri, 24 Mar 2023 17:43:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 17:36:06.639380
- Title: Remote Sensing Scene Classification with Masked Image Modeling (MIM)
- Title(参考訳): Masked Image Modeling (MIM) を用いたリモートセンシングシーン分類
- Authors: Liya Wang, Alex Tien
- Abstract要約: 自己教師付き学習(SSL)技術は、視覚的特徴表現を学習するためのより良い方法として示されている。
本研究の目的は、4つのよく知られた分類データセットにおけるMIM事前学習バックボーンの可能性を探ることである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Remote sensing scene classification has been extensively studied for its
critical roles in geological survey, oil exploration, traffic management,
earthquake prediction, wildfire monitoring, and intelligence monitoring. In the
past, the Machine Learning (ML) methods for performing the task mainly used the
backbones pretrained in the manner of supervised learning (SL). As Masked Image
Modeling (MIM), a self-supervised learning (SSL) technique, has been shown as a
better way for learning visual feature representation, it presents a new
opportunity for improving ML performance on the scene classification task. This
research aims to explore the potential of MIM pretrained backbones on four
well-known classification datasets: Merced, AID, NWPU-RESISC45, and Optimal-31.
Compared to the published benchmarks, we show that the MIM pretrained Vision
Transformer (ViTs) backbones outperform other alternatives (up to 18% on top 1
accuracy) and that the MIM technique can learn better feature representation
than the supervised learning counterparts (up to 5% on top 1 accuracy).
Moreover, we show that the general-purpose MIM-pretrained ViTs can achieve
competitive performance as the specially designed yet complicated Transformer
for Remote Sensing (TRS) framework. Our experiment results also provide a
performance baseline for future studies.
- Abstract(参考訳): リモートセンシングシーンの分類は、地質調査、石油探査、交通管理、地震予知、山火事モニタリング、情報監視において重要な役割を果たしている。
過去には、タスクを実行する機械学習(ML)メソッドは、主に教師あり学習(SL)の方法で事前訓練されたバックボーンを使用していた。
自己教師付き学習(SSL)技術であるMasked Image Modeling(MIM)が視覚特徴表現学習のより良い方法として示されたため、シーン分類タスクにおけるMLパフォーマンスを改善する新たな機会が提示された。
本研究では,merced, aid, nwpu-resisc45, optimal-31の4つの分類データセットにおいて,mim事前学習されたバックボーンの可能性を検討することを目的とした。
公開ベンチマークと比較すると,mimプリトレーニング視覚トランスフォーマ(vits)バックボーンは,他の選択肢(トップ1の精度では最大18%)よりも優れており,mimテクニックは教師あり学習よりも優れた特徴表現(トップ1の精度では最大5%)を学習できることが示されている。
さらに, 汎用MIM-Pretrained ViTsは, リモートセンシング(TRS)フレームワークとして設計されながら複雑なトランスフォーマーとして, 競争力を発揮することを示す。
実験結果は,今後の研究における性能ベースラインも提供する。
関連論文リスト
- Rethinking Pre-trained Feature Extractor Selection in Multiple Instance Learning for Whole Slide Image Classification [2.6703221234079946]
複数インスタンス学習(MIL)は、パッチレベルのアノテーションを必要とせずに、ギガピクセル全体のスライド画像(WSI)分類に好まれる方法となっている。
本研究では,3次元のMIL特徴抽出器(事前学習データセット,バックボーンモデル,事前学習手法)を体系的に評価する。
この結果から,堅牢な自己教師付き学習(SSL)手法の選択は,ドメイン内事前学習データセットのみに依存するよりも,パフォーマンスに大きな影響を与えることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-02T10:34:23Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - GenCo: An Auxiliary Generator from Contrastive Learning for Enhanced
Few-Shot Learning in Remote Sensing [9.504503675097137]
我々は、バックボーンを事前訓練し、同時に特徴サンプルの変種を探索するジェネレータベースのコントラスト学習フレームワーク(GenCo)を導入する。
微調整では、補助ジェネレータを使用して、特徴空間内の限られたラベル付きデータサンプルを濃縮することができる。
本稿では,2つの重要なリモートセンシングデータセットにおいて,この手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-07-27T03:59:19Z) - In-Domain Self-Supervised Learning Improves Remote Sensing Image Scene
Classification [5.323049242720532]
リモートセンシング画像分類のための有望なアプローチとして,自己教師付き学習が登場している。
そこで本研究では,14の下流データセットにまたがる自己教師型事前学習戦略について検討し,その効果を評価する。
論文 参考訳(メタデータ) (2023-07-04T10:57:52Z) - FreMIM: Fourier Transform Meets Masked Image Modeling for Medical Image
Segmentation [37.465246717967595]
本稿では,医療画像のセグメンテーション作業の効率化を目的として,FreMIMというMIMベースの新しいフレームワークを提案する。
FreMIMは一貫してモデルパフォーマンスに大幅な改善をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-04-21T10:23:34Z) - CAE v2: Context Autoencoder with CLIP Target [63.61868058214267]
マスク付き画像モデリング(MIM)は、画像パッチのマスキングと再構成によって視覚表現を学習する。
再建管理をCLIP表現に適用することはMIMに有効であることが証明されている。
CLIPをターゲットとしたMIMの精製戦略を検討するため,MIMにおける2つの重要な要素,すなわち,監督位置とマスク比について検討した。
論文 参考訳(メタデータ) (2022-11-17T18:58:33Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - SLIP: Self-supervision meets Language-Image Pre-training [79.53764315471543]
自己指導型学習が視覚表現学習における言語指導の活用に役立つかどうかを考察する。
自己教師付き学習とCLIP事前学習を組み合わせたマルチタスク学習フレームワークSLIPを紹介する。
SLIPは、自己監督や言語監督よりも優れたパフォーマンスを享受しています。
論文 参考訳(メタデータ) (2021-12-23T18:07:13Z) - Benchmarking Detection Transfer Learning with Vision Transformers [60.97703494764904]
オブジェクト検出メソッドの複雑さは、ViT(Vision Transformer)モデルのような新しいアーキテクチャが到着するときに、ベンチマークを非簡単にする。
本研究では,これらの課題を克服し,標準的なVTモデルをMask R-CNNのバックボーンとして活用する訓練手法を提案する。
その結果,最近のマスキングに基づく教師なし学習手法は,COCOにおける説得力のあるトランスファー学習改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2021-11-22T18:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。