論文の概要: CMID: A Unified Self-Supervised Learning Framework for Remote Sensing
Image Understanding
- arxiv url: http://arxiv.org/abs/2304.09670v2
- Date: Fri, 4 Aug 2023 02:42:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 16:03:19.591758
- Title: CMID: A Unified Self-Supervised Learning Framework for Remote Sensing
Image Understanding
- Title(参考訳): cmid:リモートセンシング画像理解のための統合自己教師付き学習フレームワーク
- Authors: Dilxat Muhtar, Xueliang Zhang, Pengfeng Xiao, Zhenshi Li, Feng Gu
- Abstract要約: CMID(Contrastive Mask Image Distillation)は,大域的意味分離性と局所空間認識性の両方で表現を学習することができる。
CMIDは畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)の両方と互換性がある
CMIDを用いて事前訓練されたモデルは、複数のダウンストリームタスクにおける他の最先端SSLメソッドよりも優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 20.2438336674081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) has gained widespread attention in the remote
sensing (RS) and earth observation (EO) communities owing to its ability to
learn task-agnostic representations without human-annotated labels.
Nevertheless, most existing RS SSL methods are limited to learning either
global semantic separable or local spatial perceptible representations. We
argue that this learning strategy is suboptimal in the realm of RS, since the
required representations for different RS downstream tasks are often varied and
complex. In this study, we proposed a unified SSL framework that is better
suited for RS images representation learning. The proposed SSL framework,
Contrastive Mask Image Distillation (CMID), is capable of learning
representations with both global semantic separability and local spatial
perceptibility by combining contrastive learning (CL) with masked image
modeling (MIM) in a self-distillation way. Furthermore, our CMID learning
framework is architecture-agnostic, which is compatible with both convolutional
neural networks (CNN) and vision transformers (ViT), allowing CMID to be easily
adapted to a variety of deep learning (DL) applications for RS understanding.
Comprehensive experiments have been carried out on four downstream tasks (i.e.
scene classification, semantic segmentation, object-detection, and change
detection) and the results show that models pre-trained using CMID achieve
better performance than other state-of-the-art SSL methods on multiple
downstream tasks. The code and pre-trained models will be made available at
https://github.com/NJU-LHRS/official-CMID to facilitate SSL research and speed
up the development of RS images DL applications.
- Abstract(参考訳): リモートセンシング(RS)と地球観測(EO)のコミュニティでは,人称ラベルなしでタスク非依存の表現を学習する能力により,SSLが注目されている。
それでも、既存のRS SSLメソッドのほとんどは、グローバルな意味分離可能または局所的な空間認識可能な表現を学ぶことに限定されている。
異なるrsダウンストリームタスクに必要な表現は多種多様で複雑であるため、この学習戦略はrsの領域では最適ではないと主張する。
本研究では,RS画像表現学習に適した統合SSLフレームワークを提案する。
提案するSSLフレームワークであるContrastive Mask Image Distillation (CMID)は,コントラスト学習(CL)とマスク画像モデリング(MIM)を自己蒸留方式で組み合わせることで,大域的意味分離性と局所空間認識性の両方で表現を学習することができる。
さらに、我々のCMID学習フレームワークはアーキテクチャに依存しないため、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)の両方と互換性があり、CMIDを様々なディープラーニング(DL)アプリケーションに容易に適用することができる。
4つの下流タスク(シーン分類、セマンティックセグメンテーション、オブジェクト検出、変更検出)に対して総合的な実験を行い、CMIDを用いて事前訓練したモデルが、複数の下流タスクにおける他の最先端SSLメソッドよりも優れた性能を達成することを示した。
コードと事前トレーニングされたモデルはhttps://github.com/nju-lhrs/official-cmidで利用可能で、ssl研究を促進し、rsイメージdlアプリケーションの開発をスピードアップする。
関連論文リスト
- SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition [71.90536979421093]
本稿では,視覚言語モデル (VLM) の可能性を増幅するために, Gated Alignments (SSPA) フレームワークを用いた分割合成プロンプトを提案する。
我々は、LLMから固有の知識を関連付けるために、文脈内学習アプローチを開発する。
次に,SSP(Split-and-Synthesize Prompting)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-30T15:58:25Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - A Dual-branch Self-supervised Representation Learning Framework for
Tumour Segmentation in Whole Slide Images [12.961686610789416]
自己教師付き学習(SSL)は、スライドイメージ全体のアノテーションオーバーヘッドを低減する代替ソリューションとして登場した。
これらのSSLアプローチは、識別画像の特徴を学習する際の性能を制限するマルチレゾリューションWSIを扱うために設計されていない。
マルチ解像度WSIから画像特徴を効果的に学習できるDSF-WSI(Dual-branch SSL Framework for WSI tumour segmentation)を提案する。
論文 参考訳(メタデータ) (2023-03-20T10:57:28Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Object discovery and representation networks [78.16003886427885]
本研究では,事前に符号化された構造を自ら発見する自己教師型学習パラダイムを提案する。
Odinはオブジェクト発見と表現ネットワークを結合して意味のある画像のセグメンテーションを発見する。
論文 参考訳(メタデータ) (2022-03-16T17:42:55Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Remote Sensing Images Semantic Segmentation with General Remote Sensing
Vision Model via a Self-Supervised Contrastive Learning Method [13.479068312825781]
リモートセマンティックセグメンテーションのためのGlobal style and Local matching Contrastive Learning Network (GLCNet)を提案する。
具体的には、画像レベルの表現をより良く学習するために、グローバルスタイルのコントラストモジュールが使用される。
コントラストモジュールにマッチするローカル特徴は、セマンティックセグメンテーションに有用なローカル領域の表現を学習するために設計されている。
論文 参考訳(メタデータ) (2021-06-20T03:03:40Z) - Self-Supervised Learning with Kernel Dependence Maximization [23.618292038419654]
我々はHilbert-Schmidt Independence Criterion (SSL-HSIC)による自己指導型学習を提案する。
SSL-HSICは、画像の変換されたバージョンの表現とイメージアイデンティティの依存関係を最大化する。
この自己教師型学習フレームワークは、異なる変換間の相互情報(MI)の変動的下限であるInfoNCEを新たに理解する。
論文 参考訳(メタデータ) (2021-06-15T17:51:16Z) - Multi-Perspective LSTM for Joint Visual Representation Learning [81.21490913108835]
複数の視点から捉えた視覚的シーケンスで利用可能な内的および対外的関係を学習できる新しいLSTM細胞アーキテクチャを提案する。
私たちのアーキテクチャは、細胞レベルで追加のゲートと記憶を使用する新しい繰り返し共同学習戦略を採用しています。
提案するセルを用いてネットワークを構築することにより、より効果的でリッチな視覚的表現が認識タスクで学習されることを示す。
論文 参考訳(メタデータ) (2021-05-06T16:44:40Z) - Remote Sensing Image Scene Classification with Self-Supervised Paradigm
under Limited Labeled Samples [11.025191332244919]
我々は,大規模なラベル付きデータからRSIシーン分類のための高性能事前学習モデルを得るために,新たな自己教師付き学習(SSL)機構を導入する。
一般的な3つのRSIシーン分類データセットの実験により、この新たな学習パラダイムは、従来の支配的なImageNet事前学習モデルよりも優れていることが示された。
我々の研究から得られた知見は、リモートセンシングコミュニティにおけるSSLの発展を促進するのに役立ちます。
論文 参考訳(メタデータ) (2020-10-02T09:27:19Z) - More Diverse Means Better: Multimodal Deep Learning Meets Remote Sensing
Imagery Classification [43.35966675372692]
ディープネットワークをトレーニングし、ネットワークアーキテクチャを構築する方法を示します。
特に、深層ネットワークをトレーニングし、ネットワークアーキテクチャを構築する方法と同様に、異なる融合戦略を示す。
我々のフレームワークは画素単位の分類タスクに限らず、畳み込みニューラルネットワーク(CNN)を用いた空間情報モデリングにも適用できる。
論文 参考訳(メタデータ) (2020-08-12T17:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。