論文の概要: Multimodal contrastive learning for remote sensing tasks
- arxiv url: http://arxiv.org/abs/2209.02329v1
- Date: Tue, 6 Sep 2022 09:31:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 13:03:10.432185
- Title: Multimodal contrastive learning for remote sensing tasks
- Title(参考訳): リモートセンシングタスクのためのマルチモーダルコントラスト学習
- Authors: Umangi Jain, Alex Wilson, Varun Gulshan
- Abstract要約: 本稿では,Sentinel-1 と Sentinel-2 の画像ペアの大きなラベル付きデータセット (1M) 上で事前トレーニングされたデュアルエンコーダフレームワークを提案する。
本研究では,2つのリモートセンシング下流タスク(洪水セグメンテーションとランドカバーマッピング)における埋め込み実験を行い,この手法から学習した埋め込みが,積極的データ拡張による正のサンプル収集という従来の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.5801044612920815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised methods have shown tremendous success in the field of
computer vision, including applications in remote sensing and medical imaging.
Most popular contrastive-loss based methods like SimCLR, MoCo, MoCo-v2 use
multiple views of the same image by applying contrived augmentations on the
image to create positive pairs and contrast them with negative examples.
Although these techniques work well, most of these techniques have been tuned
on ImageNet (and similar computer vision datasets). While there have been some
attempts to capture a richer set of deformations in the positive samples, in
this work, we explore a promising alternative to generating positive examples
for remote sensing data within the contrastive learning framework. Images
captured from different sensors at the same location and nearby timestamps can
be thought of as strongly augmented instances of the same scene, thus removing
the need to explore and tune a set of hand crafted strong augmentations. In
this paper, we propose a simple dual-encoder framework, which is pre-trained on
a large unlabeled dataset (~1M) of Sentinel-1 and Sentinel-2 image pairs. We
test the embeddings on two remote sensing downstream tasks: flood segmentation
and land cover mapping, and empirically show that embeddings learnt from this
technique outperform the conventional technique of collecting positive examples
via aggressive data augmentations.
- Abstract(参考訳): 自己監視手法は、リモートセンシングや医用画像の応用など、コンピュータビジョンの分野で大きな成功を収めている。
SimCLR、MoCo、MoCo-v2のような、最も一般的なコントラストベースのメソッドは、イメージに複雑な拡張を適用して正のペアを生成し、負の例と対比することで、同じイメージの複数のビューを使用する。
これらのテクニックはうまく機能するが、ほとんどのテクニックはImageNet(および同様のコンピュータビジョンデータセット)でチューニングされている。
ポジティブなサンプルでよりリッチな変形を捉えようとする試みがいくつかあったが、本研究では、コントラスト学習フレームワークにおいて、リモートセンシングデータのポジティブな例を生成するための有望な代替案について検討する。
同じ場所にある異なるセンサーと近くのタイムスタンプから撮影された画像は、同じシーンの強い強化された例と考えることができ、手作りの強力な拡張を探索し調整する必要がなくなる。
本稿では,Sentinel-1 と Sentinel-2 の画像ペアのラベルなしデータセット (~1M) で事前トレーニングされた,単純なデュアルエンコーダフレームワークを提案する。
本研究では,2つのリモートセンシング下流タスク(洪水セグメンテーションとランドカバーマッピング)における埋め込み実験を行い,この手法から学習した埋め込みが,積極的データ拡張による正のサンプル収集という従来の手法よりも優れていることを示す。
関連論文リスト
- CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Mix-up Self-Supervised Learning for Contrast-agnostic Applications [33.807005669824136]
コントラストに依存しないアプリケーションのための,最初の混合型自己教師型学習フレームワークを提案する。
クロスドメイン・ミックスアップに基づく画像間の低分散に対処し、画像再構成と透明性予測に基づくプレテキストタスクを構築する。
論文 参考訳(メタデータ) (2022-04-02T16:58:36Z) - Residual Relaxation for Multi-view Representation Learning [64.40142301026805]
マルチビュー手法は、同じ画像の複数のビューをアライメントすることで学習する。
画像回転などの有用な拡張は、セマンティックシフトを引き起こすため、多視点法には有害である。
我々は,Pretext-aware Residual Relaxation (Prelax) という汎用的な手法を開発し,正確なアライメントを緩和する。
論文 参考訳(メタデータ) (2021-10-28T17:57:17Z) - Multi-Level Contrastive Learning for Few-Shot Problems [7.695214001809138]
コントラスト学習(Contrastive Learning)は、類似したサンプルを互いに近づき、多様なサンプルを互いに遠ざかることを目的とした差別的なアプローチである。
本稿では,エンコーダの異なる層におけるコントラスト的損失を適用し,複数の表現をエンコーダから学習する多段階対等学習手法を提案する。
論文 参考訳(メタデータ) (2021-07-15T21:00:02Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Multi-view Contrastive Coding of Remote Sensing Images at Pixel-level [5.64497799927668]
この制限を克服するために、ラベルのないマルチビュー設定に基づく画素単位のコントラスト的アプローチを提案する。
擬似媒介ResUnetは、シフトした正のペアから特徴を整列することを目的とした表現を学ぶために訓練される。
その結果,最先端のマルチビューコントラスト法よりも効率と精度が向上した。
論文 参考訳(メタデータ) (2021-05-18T13:28:46Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z) - Un-Mix: Rethinking Image Mixtures for Unsupervised Visual Representation
Learning [108.999497144296]
近年の先進的な教師なし学習手法では,同じ画像から2つの「ビュー」を学習表現として比較するために,サイムズ様の枠組みを用いている。
この研究は、教師なし学習においてラベル空間上の距離の概念を巻き込み、正対と負対のソフトな類似度をモデルに認識させることを目的としている。
その概念的単純さにもかかわらず、この解 -- 教師なし画像混合(Un-Mix)により、変換された入力と対応する新しいラベル空間からより微妙でより堅牢で一般化された表現を学習できることを実証的に示す。
論文 参考訳(メタデータ) (2020-03-11T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。