論文の概要: Fewshot learning on global multimodal embeddings for earth observation
tasks
- arxiv url: http://arxiv.org/abs/2310.00119v1
- Date: Fri, 29 Sep 2023 20:15:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 06:33:38.271629
- Title: Fewshot learning on global multimodal embeddings for earth observation
tasks
- Title(参考訳): 地球観測タスクのためのグローバルマルチモーダル埋め込みに関するFewshot Learning
- Authors: Matt Allen, Francisco Dorr, Joseph A. Gallego-Mejia, Laura
Mart\'inez-Ferrer, Anna Jungbluth, Freddie Kalaitzis, Ra\'ul Ramos-Poll\'an
- Abstract要約: 地球の全地質量の10%以上をカバーする衛星画像の3つの異なるモダリティを用いて,CLIP/ViTベースモデルを事前訓練する。
我々は、従来の機械学習手法を用いて、各モードで生成された埋め込みを用いて、地球観測のために異なる下流タスクを試みている。
- 参考スコア(独自算出の注目度): 5.057850174013128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we pretrain a CLIP/ViT based model using three different
modalities of satellite imagery across five AOIs covering over ~10\% of the
earth total landmass, namely Sentinel 2 RGB optical imagery, Sentinel 1 SAR
amplitude and Sentinel 1 SAR interferometric coherence. This model uses $\sim
250$ M parameters. Then, we use the embeddings produced for each modality with
a classical machine learning method to attempt different downstream tasks for
earth observation related to vegetation, built up surface, croplands and
permanent water. We consistently show how we reduce the need for labeled data
by 99\%, so that with ~200-500 randomly selected labeled examples (around
4K-10K km$^2$) we reach performance levels analogous to those achieved with the
full labeled datasets (about 150K image chips or 3M km$^2$ in each AOI) on all
modalities, AOIs and downstream tasks. This leads us to think that the model
has captured significant earth features useful in a wide variety of scenarios.
To enhance our model's usability in practice, its architecture allows inference
in contexts with missing modalities and even missing channels within each
modality. Additionally, we visually show that this embedding space, obtained
with no labels, is sensible to the different earth features represented by the
labelled datasets we selected.
- Abstract(参考訳): 本研究では,地球全地質量の約10 %以上を占める5つのAOIの衛星画像,すなわちSentinel 2 RGB光画像,Sentinel 1 SAR振幅,Sentinel 1 SAR干渉コヒーレンスを用いたCLIP/ViTモデルの構築を行った。
このモデルは$\sim 250$Mパラメータを使用する。
次に,モダリティ毎に生成された埋め込みを古典的機械学習手法で利用し,植生,表層,耕作地,常水などに関連する地層観測のための異なる下流タスクを試みる。
200-500のランダムに選択されたラベル付き例(約4K-10K km$^2$)では、すべてのモダリティ、AOI、下流タスクにおいて、完全なラベル付きデータセット(約150Kイメージチップまたは各AOIで3M km$^2$)と同等のパフォーマンスレベルに達する。
これにより、このモデルが様々なシナリオで有用な重要な地球の特徴を捉えたと考えることができる。
モデルのユーザビリティを実際に強化するために、そのアーキテクチャは、各モダリティ内のモダリティの欠如やチャネルの欠如を伴うコンテキストにおける推論を可能にします。
さらに,ラベルのない埋め込み空間は,私たちが選択したラベル付きデータセットで表される異なる地球の特徴に合理性があることを視覚的に示す。
関連論文リスト
- SpectralEarth: Training Hyperspectral Foundation Models at Scale [47.93167977587301]
ハイパースペクトル基礎モデルの事前学習を目的とした大規模マルチ時間データセットであるSpectralEarthを紹介する。
我々は、最先端の自己教師付き学習(SSL)アルゴリズムを用いて、SpectralEarthの一連の基礎モデルを事前訓練する。
我々は、土地被覆と収穫型マッピングのための4つの下流データセットを構築し、モデル評価のためのベンチマークを提供する。
論文 参考訳(メタデータ) (2024-08-15T22:55:59Z) - MLMT-CNN for Object Detection and Segmentation in Multi-layer and Multi-spectral Images [4.2623421577291225]
画像バンド間の依存関係を利用して3次元ARローカライゼーションを生成するマルチタスク深層学習フレームワークを提案する。
我々のフレームワークは、すべてのモードで平均0.72 IoUと0.90 F1スコアを達成する。
論文 参考訳(メタデータ) (2024-07-19T17:21:53Z) - M3LEO: A Multi-Modal, Multi-Label Earth Observation Dataset Integrating Interferometric SAR and Multispectral Data [1.4053129774629076]
M3LEOはマルチモーダルでマルチラベルの地球観測データセットである。
6つの地理的領域から約17M 4x4 kmのデータチップにまたがる。
論文 参考訳(メタデータ) (2024-06-06T16:30:41Z) - OmniSat: Self-Supervised Modality Fusion for Earth Observation [5.767156832161819]
OmniSatは、多様なEOモダリティをラベルなしで表現的特徴にマージできる新しいアーキテクチャである。
3つの下流タスクで示されているように、OmniSatは監督なしでリッチな表現を学ぶことができ、最先端のパフォーマンスをもたらす。
我々のマルチモーダル事前学習方式は,1つのモーダルしか推論できない場合でも性能が向上する。
論文 参考訳(メタデータ) (2024-04-12T09:31:55Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Sketch and Scale: Geo-distributed tSNE and UMAP [75.44887265789056]
地理的に分散したデータセット上で機械学習分析を実行することは、急速に発生する問題である。
私たちはSketch and Scale(SnS)という新しいフレームワークを紹介します。
これはCount Sketchデータ構造を利用して、エッジノード上のデータを圧縮し、マスターノード上の縮小サイズスケッチを集約し、サマリ上でバニラtSNEまたはUMAPを実行する。
我々は、この技術が完全に並列で、線形に時間にスケールし、メモリに対数的に分散し、通信し、世界中の複数のデータセンターにまたがる数百万、数十億のデータポイントでデータセットを解析できることを示す。
論文 参考訳(メタデータ) (2020-11-11T22:32:21Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z) - A Nearest Neighbor Network to Extract Digital Terrain Models from 3D
Point Clouds [1.6249267147413524]
本稿では,3Dポイントのクラウド上で動作し,エンド・ツー・エンドのアプローチを用いてシーンの基盤となるDTMを推定するアルゴリズムを提案する。
我々のモデルは近隣情報を学習し、これをポイントワイドでブロックワイドなグローバルな特徴とシームレスに統合する。
論文 参考訳(メタデータ) (2020-05-21T15:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。