論文の概要: WV-Net: A foundation model for SAR WV-mode satellite imagery trained using contrastive self-supervised learning on 10 million images
- arxiv url: http://arxiv.org/abs/2406.18765v1
- Date: Wed, 26 Jun 2024 21:30:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 15:56:54.483080
- Title: WV-Net: A foundation model for SAR WV-mode satellite imagery trained using contrastive self-supervised learning on 10 million images
- Title(参考訳): WV-Net:1000万枚の画像に対するコントラスト学習を用いたSAR WVモード衛星画像の基礎モデル
- Authors: Yannik Glaser, Justin E. Stopa, Linnea M. Wolniewicz, Ralph Foster, Doug Vandemark, Alexis Mouche, Bertrand Chapron, Peter Sadowski,
- Abstract要約: 本研究では,1000万近いWVモード画像とコントラスト型自己教師型学習を用いて,WV-Netと呼ばれるセマンティック埋め込みモデルを訓練する。
複数の下流タスクにおいて、WV-Netは、教師あり学習を伴う自然画像に事前訓練された同等のモデルより優れている。
WV-Net埋め込みは教師なしのイメージ検索タスクでは優れており、データスパース設定ではスケールが優れている。
- 参考スコア(独自算出の注目度): 23.653151006898327
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The European Space Agency's Copernicus Sentinel-1 (S-1) mission is a constellation of C-band synthetic aperture radar (SAR) satellites that provide unprecedented monitoring of the world's oceans. S-1's wave mode (WV) captures 20x20 km image patches at 5 m pixel resolution and is unaffected by cloud cover or time-of-day. The mission's open data policy has made SAR data easily accessible for a range of applications, but the need for manual image annotations is a bottleneck that hinders the use of machine learning methods. This study uses nearly 10 million WV-mode images and contrastive self-supervised learning to train a semantic embedding model called WV-Net. In multiple downstream tasks, WV-Net outperforms a comparable model that was pre-trained on natural images (ImageNet) with supervised learning. Experiments show improvements for estimating wave height (0.50 vs 0.60 RMSE using linear probing), estimating near-surface air temperature (0.90 vs 0.97 RMSE), and performing multilabel-classification of geophysical and atmospheric phenomena (0.96 vs 0.95 micro-averaged AUROC). WV-Net embeddings are also superior in an unsupervised image-retrieval task and scale better in data-sparse settings. Together, these results demonstrate that WV-Net embeddings can support geophysical research by providing a convenient foundation model for a variety of data analysis and exploration tasks.
- Abstract(参考訳): 欧州宇宙機関のCopernicus Sentinel-1(S-1)ミッションは、Cバンド合成開口レーダー(SAR)衛星のコンステレーションであり、世界の海洋を前例のない方法で観測する。
S-1の波動モード(WV)は、20×20kmの画像パッチを5mの解像度でキャプチャし、雲のカバーや日時の影響を受けない。
ミッションのオープンデータポリシにより、さまざまなアプリケーションで簡単にSARデータにアクセスできるようになるが、手動イメージアノテーションの必要性は、機械学習メソッドの使用を妨げるボトルネックである。
本研究では,1000万近いWVモード画像とコントラスト型自己教師型学習を用いて,WV-Netと呼ばれるセマンティック埋め込みモデルを訓練する。
複数の下流タスクにおいて、WV-Netは、教師あり学習を伴う自然画像(ImageNet)で事前訓練された同等のモデルより優れている。
実験では、波高の推定(線形探査による0.50対0.60 RMSE)、地表面温度の推定(0.90対0.97 RMSE)、物理現象と大気現象の多重分類(0.96対0.95マイクロ平均AUROC)の改善が示されている。
WV-Net埋め込みは教師なしのイメージ検索タスクでは優れており、データスパース設定ではスケールが優れている。
これらの結果は、WV-Net埋め込みが、様々なデータ分析および探索タスクに便利な基礎モデルを提供することで、地球物理学研究を支援することを実証している。
関連論文リスト
- An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - From Blurry to Brilliant Detection: YOLOv5-Based Aerial Object Detection
with Super Resolution [4.107182710549721]
超解像度と適応型軽量YOLOv5アーキテクチャを組み合わせた革新的なアプローチを提案する。
実験により,小型で密集した物体の検出において,モデルの性能が優れていることを示した。
論文 参考訳(メタデータ) (2024-01-26T05:50:58Z) - Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve
Aerial Visual Perception? [57.77643186237265]
我々は、異なる視点から同期シーンを記録するビデオデータセットであるMultiview Aerial Visual RECgnition(MAVREC)を提示する。
MAVRECは約2.5時間、業界標準の2.7K解像度ビデオシーケンス、0.5万フレーム以上のフレーム、11万の注釈付きバウンディングボックスで構成されている。
これにより、MAVRECは地上および空中ビューのデータセットとして最大であり、ドローンベースのデータセットの中では4番目に大きい。
論文 参考訳(メタデータ) (2023-12-07T18:59:14Z) - Estimating optical vegetation indices with Sentinel-1 SAR data and
AutoML [32.19783248549554]
現在の森林生態系モニタリング用光植生指標(VIs)は,様々な用途で広く利用されている。
光衛星データに基づく継続的な監視は、雲のような大気の影響によって妨げられる。
本研究の目的は、SARデータによる光学データに影響を与える問題を克服し、機械学習を用いて森林の光VIを推定する代替手段として機能することである。
論文 参考訳(メタデータ) (2023-11-13T18:23:46Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Transforming Observations of Ocean Temperature with a Deep Convolutional
Residual Regressive Neural Network [0.0]
海面温度(SST)は、地上の真理、リモートセンシング、ハイブリッドモデル手法を通じて測定できる、必須の気候変動である。
ここでは,20世紀後半から21世紀初頭にかけてのいくつかの技術進歩を応用して,SST監視の進展を祝福する。
本研究では, AMSR-E と MODIS を高分解能に融合させるため, 既存の水循環観測フレームワークである Flux to Flow (F2F) を開発した。
我々のニューラルネットワークアーキテクチャは、深い畳み込み残留回帰ニューラルネットワークに制約されている。
論文 参考訳(メタデータ) (2023-06-16T17:35:11Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Recognition of polar lows in Sentinel-1 SAR images with deep learning [5.571369922847262]
本研究では, 海洋性メソサイクロン, 陰性, 正常な海の状態を表すSentinel-1画像からなる新しいデータセットについて紹介する。
データセットは、ラベル付きイメージを分類するためにディープラーニングモデルをトレーニングするために使用される。
このモデルではF-1スコアが0.95であり、SAR画像から極低を一貫して検出できることを示している。
論文 参考訳(メタデータ) (2022-03-30T15:32:39Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Planetary UAV localization based on Multi-modal Registration with
Pre-existing Digital Terrain Model [0.5156484100374058]
我々は,UAV上のナディルビューカメラを用いて,惑星UAVの位置を推定するマルチモーダル登録に基づくSLAMアルゴリズムを提案する。
オンボードUAV画像とプリインストールデジタル地形モデルとのスケールと外観の違いを克服するために,UAV画像とDEMの地形特性がクロスパワースペクトルを介して周波数領域で相関できることを示す理論的モデルを提案した。
提案するローカライゼーションアルゴリズムのロバスト性と有効性をテストするために,惑星探査のための新しいクロスソースドローンベースのローカライゼーションデータセットを提案する。
論文 参考訳(メタデータ) (2021-06-24T02:54:01Z) - SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous
Driving [94.11868795445798]
我々は,SODA10Mという名の自律走行用大規模物体検出ベンチマークをリリースし,1000万枚の未ラベル画像と6つの代表対象カテゴリをラベル付けした20K画像を含む。
多様性を向上させるために、画像は32の異なる都市で、1フレームあたり10秒毎に異なる気象条件、期間、場所のシーンで収集される。
我々は、既存の教師付き最先端検出モデル、一般的な自己監督型および半教師付きアプローチ、および将来のモデルの開発方法に関するいくつかの知見について、広範な実験と詳細な分析を行った。
論文 参考訳(メタデータ) (2021-06-21T13:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。