論文の概要: Fewshot learning on global multimodal embeddings for earth observation
tasks
- arxiv url: http://arxiv.org/abs/2310.00119v1
- Date: Fri, 29 Sep 2023 20:15:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 06:33:38.271629
- Title: Fewshot learning on global multimodal embeddings for earth observation
tasks
- Title(参考訳): 地球観測タスクのためのグローバルマルチモーダル埋め込みに関するFewshot Learning
- Authors: Matt Allen, Francisco Dorr, Joseph A. Gallego-Mejia, Laura
Mart\'inez-Ferrer, Anna Jungbluth, Freddie Kalaitzis, Ra\'ul Ramos-Poll\'an
- Abstract要約: 地球の全地質量の10%以上をカバーする衛星画像の3つの異なるモダリティを用いて,CLIP/ViTベースモデルを事前訓練する。
我々は、従来の機械学習手法を用いて、各モードで生成された埋め込みを用いて、地球観測のために異なる下流タスクを試みている。
- 参考スコア(独自算出の注目度): 5.057850174013128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we pretrain a CLIP/ViT based model using three different
modalities of satellite imagery across five AOIs covering over ~10\% of the
earth total landmass, namely Sentinel 2 RGB optical imagery, Sentinel 1 SAR
amplitude and Sentinel 1 SAR interferometric coherence. This model uses $\sim
250$ M parameters. Then, we use the embeddings produced for each modality with
a classical machine learning method to attempt different downstream tasks for
earth observation related to vegetation, built up surface, croplands and
permanent water. We consistently show how we reduce the need for labeled data
by 99\%, so that with ~200-500 randomly selected labeled examples (around
4K-10K km$^2$) we reach performance levels analogous to those achieved with the
full labeled datasets (about 150K image chips or 3M km$^2$ in each AOI) on all
modalities, AOIs and downstream tasks. This leads us to think that the model
has captured significant earth features useful in a wide variety of scenarios.
To enhance our model's usability in practice, its architecture allows inference
in contexts with missing modalities and even missing channels within each
modality. Additionally, we visually show that this embedding space, obtained
with no labels, is sensible to the different earth features represented by the
labelled datasets we selected.
- Abstract(参考訳): 本研究では,地球全地質量の約10 %以上を占める5つのAOIの衛星画像,すなわちSentinel 2 RGB光画像,Sentinel 1 SAR振幅,Sentinel 1 SAR干渉コヒーレンスを用いたCLIP/ViTモデルの構築を行った。
このモデルは$\sim 250$Mパラメータを使用する。
次に,モダリティ毎に生成された埋め込みを古典的機械学習手法で利用し,植生,表層,耕作地,常水などに関連する地層観測のための異なる下流タスクを試みる。
200-500のランダムに選択されたラベル付き例(約4K-10K km$^2$)では、すべてのモダリティ、AOI、下流タスクにおいて、完全なラベル付きデータセット(約150Kイメージチップまたは各AOIで3M km$^2$)と同等のパフォーマンスレベルに達する。
これにより、このモデルが様々なシナリオで有用な重要な地球の特徴を捉えたと考えることができる。
モデルのユーザビリティを実際に強化するために、そのアーキテクチャは、各モダリティ内のモダリティの欠如やチャネルの欠如を伴うコンテキストにおける推論を可能にします。
さらに,ラベルのない埋め込み空間は,私たちが選択したラベル付きデータセットで表される異なる地球の特徴に合理性があることを視覚的に示す。
関連論文リスト
- MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning [9.540487697801531]
光衛星画像の汎用表現を学習するために,MP-MAE(Multi-Pretext Masked Autoencoder)アプローチを提案する。
我々のアプローチは、完全な畳み込みマスク付きオートエンコーダ(MAE)であるConvNeXt V2アーキテクチャに基づいている。
例えばBigEarthNetの4pp、So2Satの16ppなどです。
論文 参考訳(メタデータ) (2024-05-04T23:16:48Z) - OmniSat: Self-Supervised Modality Fusion for Earth Observation [5.767156832161819]
OmniSatは,複数のEOモダリティ間の空間的アライメントを利用して,ラベルのない表現型マルチモーダル表現を学習する新しいアーキテクチャである。
OmniSatは、林業、土地被覆分類、作物マッピングの3つの下流タスクで実証されているように、教師なしの方法で豊かな表現を学習し、パフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-04-12T09:31:55Z) - SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery [35.550999964460466]
本稿では,2150万の時間的シーケンスを持つマルチモーダルリモートセンシングデータセットを事前トレーニングした総称10億スケールモデルSkySenseを提案する。
我々の知る限り、SkySenseは今までで最大のマルチモーダルであり、モジュールを柔軟に組み合わせたり、個別に使用して様々なタスクに適合させることができる。
論文 参考訳(メタデータ) (2023-12-15T09:57:21Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - Zero-Shot Refinement of Buildings' Segmentation Models using SAM [6.110856077714895]
本稿では,既存モデルの一般化損失に対処するために基礎モデルを適用する新しいアプローチを提案する。
いくつかのモデルの中で、私たちはSegment Anything Model(SAM)に焦点を当てています。
SAMは認識機能を提供しないので、ローカライズされたオブジェクトの分類とタグ付けに失敗する。
この新しいアプローチはSAMを認識能力で強化する。
論文 参考訳(メタデータ) (2023-10-03T07:19:59Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Sketch and Scale: Geo-distributed tSNE and UMAP [75.44887265789056]
地理的に分散したデータセット上で機械学習分析を実行することは、急速に発生する問題である。
私たちはSketch and Scale(SnS)という新しいフレームワークを紹介します。
これはCount Sketchデータ構造を利用して、エッジノード上のデータを圧縮し、マスターノード上の縮小サイズスケッチを集約し、サマリ上でバニラtSNEまたはUMAPを実行する。
我々は、この技術が完全に並列で、線形に時間にスケールし、メモリに対数的に分散し、通信し、世界中の複数のデータセンターにまたがる数百万、数十億のデータポイントでデータセットを解析できることを示す。
論文 参考訳(メタデータ) (2020-11-11T22:32:21Z) - Dual Attention GANs for Semantic Image Synthesis [101.36015877815537]
本稿では,写真リアリスティック・セマンティック・一貫性のあるイメージを合成するための新しいデュアルアテンションGAN(DAGAN)を提案する。
また,2つの新しいモジュール,すなわち位置対応空間アテンションモジュール(SAM)と規模対応チャネルアテンションモジュール(CAM)を提案する。
DAGANは、より少ないモデルパラメータを使用しながら、最先端のメソッドよりも驚くほど優れた結果が得られる。
論文 参考訳(メタデータ) (2020-08-29T17:49:01Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z) - A Nearest Neighbor Network to Extract Digital Terrain Models from 3D
Point Clouds [1.6249267147413524]
本稿では,3Dポイントのクラウド上で動作し,エンド・ツー・エンドのアプローチを用いてシーンの基盤となるDTMを推定するアルゴリズムを提案する。
我々のモデルは近隣情報を学習し、これをポイントワイドでブロックワイドなグローバルな特徴とシームレスに統合する。
論文 参考訳(メタデータ) (2020-05-21T15:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。