論文の概要: OmniSat: Self-Supervised Modality Fusion for Earth Observation
- arxiv url: http://arxiv.org/abs/2404.08351v2
- Date: Fri, 12 Jul 2024 16:45:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 04:47:43.052943
- Title: OmniSat: Self-Supervised Modality Fusion for Earth Observation
- Title(参考訳): オムニサット:地球観測のための自己監督されたモーダリティ融合
- Authors: Guillaume Astruc, Nicolas Gonthier, Clement Mallet, Loic Landrieu,
- Abstract要約: OmniSatは,複数のEOモダリティ間の空間的アライメントを利用して,ラベルのない表現型マルチモーダル表現を学習する新しいアーキテクチャである。
異なる性質のモダリティを組み合わせる利点を示すため、既存の2つのデータセットを新しいモダリティで拡張する。
OmniSatは、森林、土地被覆分類、作物マッピングの3つの下流タスクで実証されているように、教師なしの方法でリッチな表現を学習することができる。
- 参考スコア(独自算出の注目度): 5.767156832161819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of Earth Observations (EO) offers a wealth of data from diverse sensors, presenting a great opportunity for advancing self-supervised multimodal learning. However, current multimodal EO datasets and models focus on a single data type, either mono-date images or time series, which limits their expressivity. We introduce OmniSat, a novel architecture that exploits the spatial alignment between multiple EO modalities to learn expressive multimodal representations without labels. To demonstrate the advantages of combining modalities of different natures, we augment two existing datasets with new modalities. As demonstrated on three downstream tasks: forestry, land cover classification, and crop mapping. OmniSat can learn rich representations in an unsupervised manner, leading to improved performance in the semi- and fully-supervised settings, even when only one modality is available for inference. The code and dataset are available at https://github.com/gastruc/OmniSat.
- Abstract(参考訳): 地球観測(EO)の分野は、多様なセンサーからの豊富なデータを提供し、自己監督型マルチモーダル学習を前進させる大きな機会を提供する。
しかし、現在のマルチモーダルなEOデータセットとモデルは、単一のデータタイプ、すなわちモノデート画像または時系列に焦点を合わせ、表現性を制限している。
OmniSatは,複数のEOモダリティ間の空間的アライメントを利用して,ラベルのない表現型マルチモーダル表現を学習する新しいアーキテクチャである。
異なる性質のモダリティを組み合わせる利点を示すため、既存の2つのデータセットを新しいモダリティで拡張する。
下流の3つの課題:林業、土地被覆分類、作物マッピング。
OmniSatは、教師なしの方法でリッチな表現を学習することができ、推論に1つのモダリティしか利用できない場合でも、半教師付き設定と完全教師付き設定のパフォーマンスが改善される。
コードとデータセットはhttps://github.com/gastruc/OmniSat.comで入手できる。
関連論文リスト
- OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces [67.07083389543799]
我々は,70億から300億のパラメータからなる大規模マルチモーダル関節表現モデルOmniBindを提案する。
全てのモダリティにまたがるデータペアが不足しているため、スクラッチから大規模モデルをトレーニングする代わりに、様々な事前訓練された専門家モデルの空間を再マッピングし結合することを提案する。
実験では、OmniBindのオムニ表現モデルとしての汎用性と優位性を示し、多様なアプリケーションに対するその大きな可能性を強調している。
論文 参考訳(メタデータ) (2024-07-16T16:24:31Z) - Multi-Modal Video Dialog State Tracking in the Wild [10.453212911612866]
MST-MIXERは、汎用的なマルチモーダル状態追跡スキーム上で動作する新しいビデオダイアログモデルである。
新たなマルチモーダルグラフ構造学習法を用いて,各入力モードの選択した構成成分の不足する基盤構造を予測する。
5つの挑戦的なベンチマークで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2024-07-02T12:34:17Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning [9.540487697801531]
光衛星画像の汎用表現を学習するために,MP-MAE(Multi-Pretext Masked Autoencoder)アプローチを提案する。
我々のアプローチは、完全な畳み込みマスク付きオートエンコーダ(MAE)であるConvNeXt V2アーキテクチャに基づいている。
例えばBigEarthNetの4pp、So2Satの16ppなどです。
論文 参考訳(メタデータ) (2024-05-04T23:16:48Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery [35.550999964460466]
本稿では,2150万の時間的シーケンスを持つマルチモーダルリモートセンシングデータセットを事前トレーニングした総称10億スケールモデルSkySenseを提案する。
我々の知る限り、SkySenseは今までで最大のマルチモーダルであり、モジュールを柔軟に組み合わせたり、個別に使用して様々なタスクに適合させることができる。
論文 参考訳(メタデータ) (2023-12-15T09:57:21Z) - ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z) - Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。
これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。
共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T20:46:48Z) - Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.790636524264]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-18T17:59:57Z) - Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation
for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。
そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。
ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文 参考訳(メタデータ) (2023-02-16T13:41:19Z) - Generalized Zero-Shot Learning using Multimodal Variational Auto-Encoder
with Semantic Concepts [0.9054540533394924]
近年の手法では,意味空間と画像空間の相互マッピングの学習が試みられている。
画像特徴と意味空間の共有潜在空間を学習できるマルチモーダル変分自動エンコーダ(M-VAE)を提案する。
提案手法は, ゼロショット学習における最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-26T20:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。