論文の概要: Fewshot learning on global multimodal embeddings for earth observation
tasks
- arxiv url: http://arxiv.org/abs/2310.00119v2
- Date: Sun, 3 Dec 2023 00:14:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 22:12:33.755187
- Title: Fewshot learning on global multimodal embeddings for earth observation
tasks
- Title(参考訳): 地球観測タスクのためのグローバルマルチモーダル埋め込みに関するFewshot Learning
- Authors: Matt Allen, Francisco Dorr, Joseph A. Gallego-Mejia, Laura
Mart\'inez-Ferrer, Anna Jungbluth, Freddie Kalaitzis, Ra\'ul Ramos-Poll\'an
- Abstract要約: 地球の総面積の10%以上をカバーする衛星画像の3つの異なるモードを用いて、CLIP/ViTベースのモデルを事前訓練する。
我々は、従来の機械学習手法を用いて、各モードで生成された埋め込みを用いて、地球観測のために異なる下流タスクを試みている。
ラベルのない埋め込み空間は、私たちが選択したラベル付きデータセットで表される異なる地球の特徴に感受性があることを視覚的に示す。
- 参考スコア(独自算出の注目度): 5.057850174013128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we pretrain a CLIP/ViT based model using three different
modalities of satellite imagery across five AOIs covering over ~10\% of Earth's
total landmass, namely Sentinel 2 RGB optical imagery, Sentinel 1 SAR radar
amplitude and interferometric coherence. This model uses $\sim 250$ M
parameters. Then, we use the embeddings produced for each modality with a
classical machine learning method to attempt different downstream tasks for
earth observation related to vegetation, built up surface, croplands and
permanent water. We consistently show how we reduce the need for labeled data
by 99\%, so that with ~200-500 randomly selected labeled examples (around
4K-10K km$^2$) we reach performance levels analogous to those achieved with the
full labeled datasets (about 150K image chips or 3M km$^2$ in each area of
interest - AOI) on all modalities, AOIs and downstream tasks. This leads us to
think that the model has captured significant earth features useful in a wide
variety of scenarios. To enhance our model's usability in practice, its
architecture allows inference in contexts with missing modalities and even
missing channels within each modality. Additionally, we visually show that this
embedding space, obtained with no labels, is sensible to the different earth
features represented by the labelled datasets we selected.
- Abstract(参考訳): 本研究では,地球全体の陸地質量の約10 %以上を占める5つのAOIの衛星画像,すなわちSentinel 2 RGB光画像,Sentinel 1 SARレーダー振幅と干渉コヒーレンスを用いて,CLIP/ViTベースモデルを事前訓練する。
このモデルは$\sim 250$Mパラメータを使用する。
次に,モダリティ毎に生成された埋め込みを古典的機械学習手法で利用し,植生,表層,耕作地,常水などに関連する地層観測のための異なる下流タスクを試みる。
ラベル付きデータの必要性を99\%削減する方法を一貫して示すことで、200~500のランダムに選択されたラベル付き例(約4k-10k km$^2$)で、すべてのモダリティ、aoisおよびダウンストリームタスクにおいて、完全なラベル付きデータセット(約150kイメージチップまたは3m km$^2$)で達成されたパフォーマンスレベルに到達します。
これにより、このモデルが様々なシナリオで有用な重要な地球の特徴を捉えたと考えることができる。
モデルのユーザビリティを実際に強化するために、そのアーキテクチャは、各モダリティ内のモダリティの欠如やチャネルの欠如を伴うコンテキストにおける推論を可能にします。
さらに,ラベルのない埋め込み空間は,私たちが選択したラベル付きデータセットで表される異なる地球の特徴に合理性があることを視覚的に示す。
関連論文リスト
- MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning [9.540487697801531]
光衛星画像の汎用表現を学習するために,MP-MAE(Multi-Pretext Masked Autoencoder)アプローチを提案する。
我々のアプローチは、完全な畳み込みマスク付きオートエンコーダ(MAE)であるConvNeXt V2アーキテクチャに基づいている。
例えばBigEarthNetの4pp、So2Satの16ppなどです。
論文 参考訳(メタデータ) (2024-05-04T23:16:48Z) - OmniSat: Self-Supervised Modality Fusion for Earth Observation [5.767156832161819]
OmniSatは,複数のEOモダリティ間の空間的アライメントを利用して,ラベルのない表現型マルチモーダル表現を学習する新しいアーキテクチャである。
OmniSatは、林業、土地被覆分類、作物マッピングの3つの下流タスクで実証されているように、教師なしの方法で豊かな表現を学習し、パフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-04-12T09:31:55Z) - SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery [35.550999964460466]
本稿では,2150万の時間的シーケンスを持つマルチモーダルリモートセンシングデータセットを事前トレーニングした総称10億スケールモデルSkySenseを提案する。
我々の知る限り、SkySenseは今までで最大のマルチモーダルであり、モジュールを柔軟に組み合わせたり、個別に使用して様々なタスクに適合させることができる。
論文 参考訳(メタデータ) (2023-12-15T09:57:21Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - Zero-Shot Refinement of Buildings' Segmentation Models using SAM [6.110856077714895]
本稿では,既存モデルの一般化損失に対処するために基礎モデルを適用する新しいアプローチを提案する。
いくつかのモデルの中で、私たちはSegment Anything Model(SAM)に焦点を当てています。
SAMは認識機能を提供しないので、ローカライズされたオブジェクトの分類とタグ付けに失敗する。
この新しいアプローチはSAMを認識能力で強化する。
論文 参考訳(メタデータ) (2023-10-03T07:19:59Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Sketch and Scale: Geo-distributed tSNE and UMAP [75.44887265789056]
地理的に分散したデータセット上で機械学習分析を実行することは、急速に発生する問題である。
私たちはSketch and Scale(SnS)という新しいフレームワークを紹介します。
これはCount Sketchデータ構造を利用して、エッジノード上のデータを圧縮し、マスターノード上の縮小サイズスケッチを集約し、サマリ上でバニラtSNEまたはUMAPを実行する。
我々は、この技術が完全に並列で、線形に時間にスケールし、メモリに対数的に分散し、通信し、世界中の複数のデータセンターにまたがる数百万、数十億のデータポイントでデータセットを解析できることを示す。
論文 参考訳(メタデータ) (2020-11-11T22:32:21Z) - Dual Attention GANs for Semantic Image Synthesis [101.36015877815537]
本稿では,写真リアリスティック・セマンティック・一貫性のあるイメージを合成するための新しいデュアルアテンションGAN(DAGAN)を提案する。
また,2つの新しいモジュール,すなわち位置対応空間アテンションモジュール(SAM)と規模対応チャネルアテンションモジュール(CAM)を提案する。
DAGANは、より少ないモデルパラメータを使用しながら、最先端のメソッドよりも驚くほど優れた結果が得られる。
論文 参考訳(メタデータ) (2020-08-29T17:49:01Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z) - A Nearest Neighbor Network to Extract Digital Terrain Models from 3D
Point Clouds [1.6249267147413524]
本稿では,3Dポイントのクラウド上で動作し,エンド・ツー・エンドのアプローチを用いてシーンの基盤となるDTMを推定するアルゴリズムを提案する。
我々のモデルは近隣情報を学習し、これをポイントワイドでブロックワイドなグローバルな特徴とシームレスに統合する。
論文 参考訳(メタデータ) (2020-05-21T15:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。