論文の概要: OmniSat: Self-Supervised Modality Fusion for Earth Observation
- arxiv url: http://arxiv.org/abs/2404.08351v3
- Date: Wed, 17 Jul 2024 08:16:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 22:07:40.943527
- Title: OmniSat: Self-Supervised Modality Fusion for Earth Observation
- Title(参考訳): オムニサット:地球観測のための自己監督されたモーダリティ融合
- Authors: Guillaume Astruc, Nicolas Gonthier, Clement Mallet, Loic Landrieu,
- Abstract要約: OmniSatは、多様なEOモダリティをラベルなしで表現的特徴にマージできる新しいアーキテクチャである。
3つの下流タスクで示されているように、OmniSatは監督なしでリッチな表現を学ぶことができ、最先端のパフォーマンスをもたらす。
我々のマルチモーダル事前学習方式は,1つのモーダルしか推論できない場合でも性能が向上する。
- 参考スコア(独自算出の注目度): 5.767156832161819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The diversity and complementarity of sensors available for Earth Observations (EO) calls for developing bespoke self-supervised multimodal learning approaches. However, current multimodal EO datasets and models typically focus on a single data type, either mono-date images or time series, which limits their impact. To address this issue, we introduce OmniSat, a novel architecture able to merge diverse EO modalities into expressive features without labels by exploiting their alignment. To demonstrate the advantages of our approach, we create two new multimodal datasets by augmenting existing ones with new modalities. As demonstrated for three downstream tasks -- forestry, land cover classification, and crop mapping -- OmniSat can learn rich representations without supervision, leading to state-of-the-art performances in semi- and fully supervised settings. Furthermore, our multimodal pretraining scheme improves performance even when only one modality is available for inference. The code and dataset are available at https://github.com/gastruc/OmniSat.
- Abstract(参考訳): 地球観測(EO)で利用可能なセンサーの多様性と相補性は、自制的なマルチモーダル学習アプローチを開発することを要求する。
しかしながら、現在のマルチモーダルなEOデータセットとモデルは通常、単一日付の画像または時系列のいずれかで、その影響を制限する単一のデータタイプにフォーカスする。
この問題に対処するため、我々はOmniSatを紹介した。OmniSatは、多種多様なEOモダリティをラベルなしで表現的特徴にマージできる新しいアーキテクチャで、アライメントを活用できる。
このアプローチの利点を実証するために、既存のデータセットを新しいモダリティで拡張することで、2つの新しいマルチモーダルデータセットを作成します。
OmniSatは3つの下流タスク(林業、土地被覆分類、作物マッピング)で実証されているように、監督なしでリッチな表現を学習できるため、半監督と完全に監督された環境下での最先端のパフォーマンスに繋がる。
さらに,マルチモーダル事前学習方式では,1つのモーダルしか推論できない場合でも,性能が向上する。
コードとデータセットはhttps://github.com/gastruc/OmniSat.comで入手できる。
関連論文リスト
- OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論するモデルの能力を厳格に評価するために設計された新しいベンチマークである。
本研究の主目的は,ほとんどのOLMが3モーダル文脈における指示追従能力と推論能力に限界があることである。
このギャップに対処するため、84.5KのトレーニングサンプルであるOmniInstructの命令チューニングデータセットをキュレートし、OLMをマルチモーダルなコンテキストに適応させる。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces [67.07083389543799]
我々は,70億から300億のパラメータからなる大規模マルチモーダル関節表現モデルOmniBindを提案する。
全てのモダリティにまたがるデータペアが不足しているため、スクラッチから大規模モデルをトレーニングする代わりに、様々な事前訓練された専門家モデルの空間を再マッピングし結合することを提案する。
実験では、OmniBindのオムニ表現モデルとしての汎用性と優位性を示し、多様なアプリケーションに対するその大きな可能性を強調している。
論文 参考訳(メタデータ) (2024-07-16T16:24:31Z) - Multi-Modal Video Dialog State Tracking in the Wild [10.453212911612866]
MST-MIXERは、汎用的なマルチモーダル状態追跡スキーム上で動作する新しいビデオダイアログモデルである。
新たなマルチモーダルグラフ構造学習法を用いて,各入力モードの選択した構成成分の不足する基盤構造を予測する。
5つの挑戦的なベンチマークで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2024-07-02T12:34:17Z) - Learning Shared RGB-D Fields: Unified Self-supervised Pre-training for Label-efficient LiDAR-Camera 3D Perception [17.11366229887873]
我々は、統合事前訓練戦略、NeRF-Supervised Masked Auto(NS-MAE)を導入する。
NS-MAEは、外観と幾何学の両方を符号化するNeRFの能力を利用して、マルチモーダルデータの効率的なマスク付き再構築を可能にする。
結果: NS-MAE は SOTA 事前学習法よりも優れており,各モードに対して個別の戦略を用いる。
論文 参考訳(メタデータ) (2024-05-28T08:13:49Z) - MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning [9.540487697801531]
MMEarthは、グローバルスケールでの多様なマルチモーダル事前トレーニングデータセットである。
光衛星画像の汎用表現を学習するために,MP-MAE(Multi-Pretext Masked Autoencoder)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-04T23:16:48Z) - MergeOcc: Bridge the Domain Gap between Different LiDARs for Robust Occupancy Prediction [8.993992124170624]
MergeOccは、複数のデータセットを活用することで、異なるLiDARを同時に扱うように開発されている。
MergeOccの有効性は、自動運転車のための2つの顕著なデータセットの実験を通じて検証される。
論文 参考訳(メタデータ) (2024-03-13T13:23:05Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z) - Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。
これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。
共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T20:46:48Z) - Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation
for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。
そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。
ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文 参考訳(メタデータ) (2023-02-16T13:41:19Z) - Generalized Zero-Shot Learning using Multimodal Variational Auto-Encoder
with Semantic Concepts [0.9054540533394924]
近年の手法では,意味空間と画像空間の相互マッピングの学習が試みられている。
画像特徴と意味空間の共有潜在空間を学習できるマルチモーダル変分自動エンコーダ(M-VAE)を提案する。
提案手法は, ゼロショット学習における最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-26T20:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。