論文の概要: A Contrastive Learning Foundation Model Based on Perfectly Aligned Sample Pairs for Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2505.19447v1
- Date: Mon, 26 May 2025 03:12:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.133198
- Title: A Contrastive Learning Foundation Model Based on Perfectly Aligned Sample Pairs for Remote Sensing Images
- Title(参考訳): リモートセンシング画像のための完全適応型サンプルペアに基づくコントラスト学習基礎モデル
- Authors: Hengtong Shen, Haiyan Gu, Haitao Li, Yi Yang, Agen qiu,
- Abstract要約: Contrastive Learning (CL) 法はノイズ干渉の正確な意味表現を得るのに優れている。
本稿では,パーフェクト・アライメントされたサンプル・ペアを用いて,全目的リモートセンシング(RS)機能を生成するPerAという新しい自己教師型手法を提案する。
提案手法はメモリ効率を向上し,スパース入力によりより大きなバッチで学習することができる。
- 参考スコア(独自算出の注目度): 18.191222010916405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-Supervised Learning (SSL) enables us to pre-train foundation models without costly labeled data. Among SSL methods, Contrastive Learning (CL) methods are better at obtaining accurate semantic representations in noise interference. However, due to the significant domain gap, while CL methods have achieved great success in many computer vision tasks, they still require specific adaptation for Remote Sensing (RS) images. To this end, we present a novel self-supervised method called PerA, which produces all-purpose RS features through semantically Perfectly Aligned sample pairs. Specifically, PerA obtains features from sampled views by applying spatially disjoint masks to augmented images rather than random cropping. With disjoint masks, we divide patches from different views into different parts that are semantically aligned but inconsistent in appearance. Our framework provides high-quality features by ensuring consistency between teacher and student and predicting learnable mask tokens. Compared to previous contrastive methods, our method demonstrates higher memory efficiency and can be trained with larger batches due to its sparse inputs. We also collect an unlabeled pre-training dataset, which contains about 5 million RS images. We conducted experiments on multiple downstream task datasets and achieved performance comparable to previous state-of-the-art methods with a limited model scale, which verified the superiority of our method. We hope this work will contribute to practical remote sensing interpretation works.
- Abstract(参考訳): SSL(Self-Supervised Learning)により、コストのかかるラベル付きデータなしで基礎モデルの事前トレーニングが可能になります。
SSL法のうち、コントラシブラーニング(CL)法はノイズ干渉の正確な意味表現を得るのに優れている。
しかし、多くのコンピュータビジョンタスクにおいてCL手法は大きな成功をおさめているが、リモートセンシング(RS)画像への適応は依然として必要である。
そこで本研究では,パーフェクト・アライメント(perfectly Aligned)のサンプル・ペアを用いて,全目的RS特徴を自動生成するPerAという手法を提案する。
特に、PerAは、ランダムなトリミングではなく、拡張画像に空間的不整合マスクを適用することで、サンプルビューから特徴を得る。
解離マスクでは、異なるビューからのパッチを、セマンティックに整合しているが外観に一貫性のない異なる部分に分割する。
本フレームワークは,教師と生徒の一貫性を確保し,学習可能なマスクトークンを予測することによって,高品質な機能を提供する。
従来のコントラスト法と比較して,本手法は高いメモリ効率を示し,スパース入力によりより大きなバッチで訓練することができる。
また、約500万のRS画像を含むラベル付き事前学習データセットも収集する。
我々は、複数の下流タスクデータセットの実験を行い、従来の最先端手法に匹敵する性能を達成し、モデルスケールを限定し、本手法の優位性を検証した。
この研究がリモートセンシングの実用的な解釈に貢献することを願っている。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [55.12082817901671]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはベースラインやコンペティターと同一のモデル設定で比較して,ImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Semantic-aware Dense Representation Learning for Remote Sensing Image
Change Detection [20.761672725633936]
ディープラーニングに基づく変化検出モデルのトレーニングはラベル付きデータに大きく依存する。
最近のトレンドは、リモートセンシング(RS)データを使用して、教師付きまたは自己教師型学習(SSL)を通じてドメイン内表現を取得することである。
複数のクラスバランス点をサンプリングし,RS画像CDに対する意味認識事前学習を提案する。
論文 参考訳(メタデータ) (2022-05-27T06:08:33Z) - HoughCL: Finding Better Positive Pairs in Dense Self-supervised Learning [30.442474932594386]
Hough Contrastive Learning (HoughCL) は、Hough空間に基づく2つの高密度特徴間の幾何的整合性を実現する手法である。
従来の研究と比較して,本手法は高密度な予測微調整タスクにおいて,より優れた,あるいは同等の性能を示す。
論文 参考訳(メタデータ) (2021-11-21T11:23:12Z) - Unsupervised Learning of Visual Features by Contrasting Cluster
Assignments [57.33699905852397]
ペア比較の計算を必要とせず,コントラスト的手法を生かしたオンラインアルゴリズムSwaVを提案する。
本手法では,クラスタ割り当て間の一貫性を保ちながら,同時にデータをクラスタ化する。
我々の方法は大規模で小さなバッチで訓練でき、無制限のデータにスケールできる。
論文 参考訳(メタデータ) (2020-06-17T14:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。