論文の概要: Fewshot learning on global multimodal embeddings for earth observation
tasks
- arxiv url: http://arxiv.org/abs/2310.00119v2
- Date: Sun, 3 Dec 2023 00:14:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 22:12:33.755187
- Title: Fewshot learning on global multimodal embeddings for earth observation
tasks
- Title(参考訳): 地球観測タスクのためのグローバルマルチモーダル埋め込みに関するFewshot Learning
- Authors: Matt Allen, Francisco Dorr, Joseph A. Gallego-Mejia, Laura
Mart\'inez-Ferrer, Anna Jungbluth, Freddie Kalaitzis, Ra\'ul Ramos-Poll\'an
- Abstract要約: 地球の総面積の10%以上をカバーする衛星画像の3つの異なるモードを用いて、CLIP/ViTベースのモデルを事前訓練する。
我々は、従来の機械学習手法を用いて、各モードで生成された埋め込みを用いて、地球観測のために異なる下流タスクを試みている。
ラベルのない埋め込み空間は、私たちが選択したラベル付きデータセットで表される異なる地球の特徴に感受性があることを視覚的に示す。
- 参考スコア(独自算出の注目度): 5.057850174013128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we pretrain a CLIP/ViT based model using three different
modalities of satellite imagery across five AOIs covering over ~10\% of Earth's
total landmass, namely Sentinel 2 RGB optical imagery, Sentinel 1 SAR radar
amplitude and interferometric coherence. This model uses $\sim 250$ M
parameters. Then, we use the embeddings produced for each modality with a
classical machine learning method to attempt different downstream tasks for
earth observation related to vegetation, built up surface, croplands and
permanent water. We consistently show how we reduce the need for labeled data
by 99\%, so that with ~200-500 randomly selected labeled examples (around
4K-10K km$^2$) we reach performance levels analogous to those achieved with the
full labeled datasets (about 150K image chips or 3M km$^2$ in each area of
interest - AOI) on all modalities, AOIs and downstream tasks. This leads us to
think that the model has captured significant earth features useful in a wide
variety of scenarios. To enhance our model's usability in practice, its
architecture allows inference in contexts with missing modalities and even
missing channels within each modality. Additionally, we visually show that this
embedding space, obtained with no labels, is sensible to the different earth
features represented by the labelled datasets we selected.
- Abstract(参考訳): 本研究では,地球全体の陸地質量の約10 %以上を占める5つのAOIの衛星画像,すなわちSentinel 2 RGB光画像,Sentinel 1 SARレーダー振幅と干渉コヒーレンスを用いて,CLIP/ViTベースモデルを事前訓練する。
このモデルは$\sim 250$Mパラメータを使用する。
次に,モダリティ毎に生成された埋め込みを古典的機械学習手法で利用し,植生,表層,耕作地,常水などに関連する地層観測のための異なる下流タスクを試みる。
ラベル付きデータの必要性を99\%削減する方法を一貫して示すことで、200~500のランダムに選択されたラベル付き例(約4k-10k km$^2$)で、すべてのモダリティ、aoisおよびダウンストリームタスクにおいて、完全なラベル付きデータセット(約150kイメージチップまたは3m km$^2$)で達成されたパフォーマンスレベルに到達します。
これにより、このモデルが様々なシナリオで有用な重要な地球の特徴を捉えたと考えることができる。
モデルのユーザビリティを実際に強化するために、そのアーキテクチャは、各モダリティ内のモダリティの欠如やチャネルの欠如を伴うコンテキストにおける推論を可能にします。
さらに,ラベルのない埋め込み空間は,私たちが選択したラベル付きデータセットで表される異なる地球の特徴に合理性があることを視覚的に示す。
関連論文リスト
- SpectralEarth: Training Hyperspectral Foundation Models at Scale [47.93167977587301]
ハイパースペクトル基礎モデルの事前学習を目的とした大規模マルチ時間データセットであるSpectralEarthを紹介する。
我々は、最先端の自己教師付き学習(SSL)アルゴリズムを用いて、SpectralEarthの一連の基礎モデルを事前訓練する。
我々は、土地被覆と収穫型マッピングのための4つの下流データセットを構築し、モデル評価のためのベンチマークを提供する。
論文 参考訳(メタデータ) (2024-08-15T22:55:59Z) - MLMT-CNN for Object Detection and Segmentation in Multi-layer and Multi-spectral Images [4.2623421577291225]
画像バンド間の依存関係を利用して3次元ARローカライゼーションを生成するマルチタスク深層学習フレームワークを提案する。
我々のフレームワークは、すべてのモードで平均0.72 IoUと0.90 F1スコアを達成する。
論文 参考訳(メタデータ) (2024-07-19T17:21:53Z) - M3LEO: A Multi-Modal, Multi-Label Earth Observation Dataset Integrating Interferometric SAR and Multispectral Data [1.4053129774629076]
M3LEOはマルチモーダルでマルチラベルの地球観測データセットである。
6つの地理的領域から約17M 4x4 kmのデータチップにまたがる。
論文 参考訳(メタデータ) (2024-06-06T16:30:41Z) - OmniSat: Self-Supervised Modality Fusion for Earth Observation [5.767156832161819]
OmniSatは、多様なEOモダリティをラベルなしで表現的特徴にマージできる新しいアーキテクチャである。
3つの下流タスクで示されているように、OmniSatは監督なしでリッチな表現を学ぶことができ、最先端のパフォーマンスをもたらす。
我々のマルチモーダル事前学習方式は,1つのモーダルしか推論できない場合でも性能が向上する。
論文 参考訳(メタデータ) (2024-04-12T09:31:55Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Sketch and Scale: Geo-distributed tSNE and UMAP [75.44887265789056]
地理的に分散したデータセット上で機械学習分析を実行することは、急速に発生する問題である。
私たちはSketch and Scale(SnS)という新しいフレームワークを紹介します。
これはCount Sketchデータ構造を利用して、エッジノード上のデータを圧縮し、マスターノード上の縮小サイズスケッチを集約し、サマリ上でバニラtSNEまたはUMAPを実行する。
我々は、この技術が完全に並列で、線形に時間にスケールし、メモリに対数的に分散し、通信し、世界中の複数のデータセンターにまたがる数百万、数十億のデータポイントでデータセットを解析できることを示す。
論文 参考訳(メタデータ) (2020-11-11T22:32:21Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z) - A Nearest Neighbor Network to Extract Digital Terrain Models from 3D
Point Clouds [1.6249267147413524]
本稿では,3Dポイントのクラウド上で動作し,エンド・ツー・エンドのアプローチを用いてシーンの基盤となるDTMを推定するアルゴリズムを提案する。
我々のモデルは近隣情報を学習し、これをポイントワイドでブロックワイドなグローバルな特徴とシームレスに統合する。
論文 参考訳(メタデータ) (2020-05-21T15:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。