Fugu-MT 論文翻訳(概要): Fewshot learning on global multimodal embeddings for earth observation tasks

論文の概要: Fewshot learning on global multimodal embeddings for earth observation tasks

arxiv url: http://arxiv.org/abs/2310.00119v1
Date: Fri, 29 Sep 2023 20:15:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 06:33:38.271629
Title: Fewshot learning on global multimodal embeddings for earth observation tasks
Title（参考訳）: 地球観測タスクのためのグローバルマルチモーダル埋め込みに関するFewshot Learning
Authors: Matt Allen, Francisco Dorr, Joseph A. Gallego-Mejia, Laura Mart\'inez-Ferrer, Anna Jungbluth, Freddie Kalaitzis, Ra\'ul Ramos-Poll\'an
Abstract要約: 地球の全地質量の10%以上をカバーする衛星画像の3つの異なるモダリティを用いて,CLIP/ViTベースモデルを事前訓練する。我々は、従来の機械学習手法を用いて、各モードで生成された埋め込みを用いて、地球観測のために異なる下流タスクを試みている。
参考スコア（独自算出の注目度）: 5.057850174013128
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work we pretrain a CLIP/ViT based model using three different modalities of satellite imagery across five AOIs covering over ~10\% of the earth total landmass, namely Sentinel 2 RGB optical imagery, Sentinel 1 SAR amplitude and Sentinel 1 SAR interferometric coherence. This model uses $\sim 250$ M parameters. Then, we use the embeddings produced for each modality with a classical machine learning method to attempt different downstream tasks for earth observation related to vegetation, built up surface, croplands and permanent water. We consistently show how we reduce the need for labeled data by 99\%, so that with ~200-500 randomly selected labeled examples (around 4K-10K km$^2$) we reach performance levels analogous to those achieved with the full labeled datasets (about 150K image chips or 3M km$^2$ in each AOI) on all modalities, AOIs and downstream tasks. This leads us to think that the model has captured significant earth features useful in a wide variety of scenarios. To enhance our model's usability in practice, its architecture allows inference in contexts with missing modalities and even missing channels within each modality. Additionally, we visually show that this embedding space, obtained with no labels, is sensible to the different earth features represented by the labelled datasets we selected.
Abstract（参考訳）: 本研究では,地球全地質量の約10 %以上を占める5つのAOIの衛星画像,すなわちSentinel 2 RGB光画像,Sentinel 1 SAR振幅,Sentinel 1 SAR干渉コヒーレンスを用いたCLIP/ViTモデルの構築を行った。このモデルは$\sim 250$Mパラメータを使用する。次に,モダリティ毎に生成された埋め込みを古典的機械学習手法で利用し,植生,表層,耕作地,常水などに関連する地層観測のための異なる下流タスクを試みる。 200-500のランダムに選択されたラベル付き例(約4K-10K km$^2$)では、すべてのモダリティ、AOI、下流タスクにおいて、完全なラベル付きデータセット(約150Kイメージチップまたは各AOIで3M km$^2$)と同等のパフォーマンスレベルに達する。これにより、このモデルが様々なシナリオで有用な重要な地球の特徴を捉えたと考えることができる。モデルのユーザビリティを実際に強化するために、そのアーキテクチャは、各モダリティ内のモダリティの欠如やチャネルの欠如を伴うコンテキストにおける推論を可能にします。さらに,ラベルのない埋め込み空間は,私たちが選択したラベル付きデータセットで表される異なる地球の特徴に合理性があることを視覚的に示す。

関連論文リスト

TESSERA: Temporal Embeddings of Surface Spectra for Earth Representation and Analysis [0.2479153065703935]
オープンでグローバルな土地指向リモートセンシング基盤モデルであるTESSERAを提案する。 10～60mの空間分解能で10個のSentinel-2スペクトルバンドの光学データと、10mの分解能で2個のSentinel-1合成開口レーダバック係数を組み合わせて、多層パーセプトロンで融合した埋め込みを作成し、年次世界埋め込みマップを作成する。
論文参考訳（メタデータ） (2025-06-25T12:46:26Z)
TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation [65.74990259650984]
本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。 TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
論文参考訳（メタデータ） (2025-06-06T17:59:50Z)
RemoteSAM: Towards Segment Anything for Earth Observation [29.707796048411705]
我々は、地球観測のための頑健でフレキシブルな視覚基盤モデルを開発することを目指している。多様な視覚的目標を認識し、位置を特定する能力を持つべきである。いくつかの地球観測知覚ベンチマークで新しいSoTAを確立する基盤モデルであるRemoteSAMを提案する。
論文参考訳（メタデータ） (2025-05-23T15:27:57Z)
MTGS: Multi-Traversal Gaussian Splatting [51.22657444433942]
マルチトラバースデータは、道路ブロック内のシーン再構築のための複数の視点を提供する。任意に収集したマルチトラバーサルデータから高品質な運転シーンを再構成する新しい手法であるマルチトラバーサル・ガウス・スプラッティング(MTGS)を提案する。その結果、MTGSはLPIPSを23.5%改善し、幾何学的精度は46.3%向上した。
論文参考訳（メタデータ） (2025-03-16T15:46:12Z)
EarthView: A Large Scale Remote Sensing Dataset for Self-Supervision [72.84868704100595]
本稿では,地球モニタリングタスクにおける深層学習アプリケーションを強化することを目的とした,リモートセンシングデータの自己監督を目的としたデータセットを提案する。このデータセットは15テラピクセルのグローバルリモートセンシングデータにまたがっており、NEON、Sentinel、Satellogicによる1mの空間解像度データの新たなリリースなど、さまざまなソースの画像を組み合わせている。このデータセットは、リモートセンシングデータの異なる課題に取り組むために開発されたMasked Autoencoderである。
論文参考訳（メタデータ） (2025-01-14T13:42:22Z)
AnySat: One Earth Observation Model for Many Resolutions, Scales, and Modalities [5.767156832161819]
本稿では,JEPAとスケール適応型空間エンコーダに基づくマルチモーダルモデルであるAnySatを提案する。この統一アプローチの利点を示すために、5ドルのマルチモーダルデータセットのコレクションであるGeoPlexをコンパイルする。次に、これらの多様なデータセット上で、単一の強力なモデルを同時にトレーニングします。
論文参考訳（メタデータ） (2024-12-18T18:11:53Z)
SpectralEarth: Training Hyperspectral Foundation Models at Scale [47.93167977587301]
ハイパースペクトル基礎モデルの事前学習を目的とした大規模マルチ時間データセットであるSpectralEarthを紹介する。我々は、最先端の自己教師付き学習(SSL)アルゴリズムを用いて、SpectralEarthの一連の基礎モデルを事前訓練する。我々は、土地被覆と収穫型マッピングのための4つの下流データセットを構築し、モデル評価のためのベンチマークを提供する。
論文参考訳（メタデータ） (2024-08-15T22:55:59Z)
MLMT-CNN for Object Detection and Segmentation in Multi-layer and Multi-spectral Images [4.2623421577291225]
画像バンド間の依存関係を利用して3次元ARローカライゼーションを生成するマルチタスク深層学習フレームワークを提案する。我々のフレームワークは、すべてのモードで平均0.72 IoUと0.90 F1スコアを達成する。
論文参考訳（メタデータ） (2024-07-19T17:21:53Z)
M3LEO: A Multi-Modal, Multi-Label Earth Observation Dataset Integrating Interferometric SAR and Multispectral Data [1.4053129774629076]
M3LEOはマルチモーダルでマルチラベルの地球観測データセットである。 6つの地理的領域から約17M 4x4 kmのデータチップにまたがる。
論文参考訳（メタデータ） (2024-06-06T16:30:41Z)
OmniSat: Self-Supervised Modality Fusion for Earth Observation [5.767156832161819]
OmniSatは、多様なEOモダリティをラベルなしで表現的特徴にマージできる新しいアーキテクチャである。 3つの下流タスクで示されているように、OmniSatは監督なしでリッチな表現を学ぶことができ、最先端のパフォーマンスをもたらす。我々のマルチモーダル事前学習方式は,1つのモーダルしか推論できない場合でも性能が向上する。
論文参考訳（メタデータ） (2024-04-12T09:31:55Z)
Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文参考訳（メタデータ） (2023-11-27T14:17:41Z)
DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文参考訳（メタデータ） (2023-02-03T14:59:31Z)
ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文参考訳（メタデータ） (2022-02-21T10:40:05Z)
Sketch and Scale: Geo-distributed tSNE and UMAP [75.44887265789056]
地理的に分散したデータセット上で機械学習分析を実行することは、急速に発生する問題である。私たちはSketch and Scale(SnS)という新しいフレームワークを紹介します。これはCount Sketchデータ構造を利用して、エッジノード上のデータを圧縮し、マスターノード上の縮小サイズスケッチを集約し、サマリ上でバニラtSNEまたはUMAPを実行する。我々は、この技術が完全に並列で、線形に時間にスケールし、メモリに対数的に分散し、通信し、世界中の複数のデータセンターにまたがる数百万、数十億のデータポイントでデータセットを解析できることを示す。
論文参考訳（メタデータ） (2020-11-11T22:32:21Z)
Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文参考訳（メタデータ） (2020-08-11T19:10:32Z)
A Nearest Neighbor Network to Extract Digital Terrain Models from 3D Point Clouds [1.6249267147413524]
本稿では,3Dポイントのクラウド上で動作し,エンド・ツー・エンドのアプローチを用いてシーンの基盤となるDTMを推定するアルゴリズムを提案する。我々のモデルは近隣情報を学習し、これをポイントワイドでブロックワイドなグローバルな特徴とシームレスに統合する。
論文参考訳（メタデータ） (2020-05-21T15:54:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。