Fugu-MT 論文翻訳(概要): OmniSat: Self-Supervised Modality Fusion for Earth Observation

論文の概要: OmniSat: Self-Supervised Modality Fusion for Earth Observation

arxiv url: http://arxiv.org/abs/2404.08351v2
Date: Fri, 12 Jul 2024 16:45:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 04:47:43.052943
Title: OmniSat: Self-Supervised Modality Fusion for Earth Observation
Title（参考訳）: オムニサット:地球観測のための自己監督されたモーダリティ融合
Authors: Guillaume Astruc, Nicolas Gonthier, Clement Mallet, Loic Landrieu,
Abstract要約: OmniSatは,複数のEOモダリティ間の空間的アライメントを利用して,ラベルのない表現型マルチモーダル表現を学習する新しいアーキテクチャである。異なる性質のモダリティを組み合わせる利点を示すため、既存の2つのデータセットを新しいモダリティで拡張する。 OmniSatは、森林、土地被覆分類、作物マッピングの3つの下流タスクで実証されているように、教師なしの方法でリッチな表現を学習することができる。
参考スコア（独自算出の注目度）: 5.767156832161819
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The field of Earth Observations (EO) offers a wealth of data from diverse sensors, presenting a great opportunity for advancing self-supervised multimodal learning. However, current multimodal EO datasets and models focus on a single data type, either mono-date images or time series, which limits their expressivity. We introduce OmniSat, a novel architecture that exploits the spatial alignment between multiple EO modalities to learn expressive multimodal representations without labels. To demonstrate the advantages of combining modalities of different natures, we augment two existing datasets with new modalities. As demonstrated on three downstream tasks: forestry, land cover classification, and crop mapping. OmniSat can learn rich representations in an unsupervised manner, leading to improved performance in the semi- and fully-supervised settings, even when only one modality is available for inference. The code and dataset are available at https://github.com/gastruc/OmniSat.
Abstract（参考訳）: 地球観測(EO)の分野は、多様なセンサーからの豊富なデータを提供し、自己監督型マルチモーダル学習を前進させる大きな機会を提供する。しかし、現在のマルチモーダルなEOデータセットとモデルは、単一のデータタイプ、すなわちモノデート画像または時系列に焦点を合わせ、表現性を制限している。 OmniSatは,複数のEOモダリティ間の空間的アライメントを利用して,ラベルのない表現型マルチモーダル表現を学習する新しいアーキテクチャである。異なる性質のモダリティを組み合わせる利点を示すため、既存の2つのデータセットを新しいモダリティで拡張する。下流の3つの課題:林業、土地被覆分類、作物マッピング。 OmniSatは、教師なしの方法でリッチな表現を学習することができ、推論に1つのモダリティしか利用できない場合でも、半教師付き設定と完全教師付き設定のパフォーマンスが改善される。コードとデータセットはhttps://github.com/gastruc/OmniSat.comで入手できる。

関連論文リスト

TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation [65.74990259650984]
本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。 TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
論文参考訳（メタデータ） (2025-06-06T17:59:50Z)
TerraMind: Large-Scale Generative Multimodality for Earth Observation [3.5472166810202457]
TerraMindは、地球観測のための初の生成的マルチモーダル基礎モデルである。他のマルチモーダルモデルとは異なり、TerraMindはトークンレベルとピクセルレベルのデータを組み合わせたデュアルスケール表現で事前訓練されている。
論文参考訳（メタデータ） (2025-04-15T13:17:39Z)
FusDreamer: Label-efficient Remote Sensing World Model for Multimodal Data Classification [7.523866920738647]
本稿では,マルチモーダルデータ融合(FusDreamer)のためのラベル効率のよいリモートセンシング世界モデルを提案する。 FusDreamerは、世界モデルを統一表現コンテナとして使用して、共通知識と高レベルの知識を抽象化する。 4つの典型的なデータセットで実施された実験は、提案されたFusDreamerの有効性と利点を示している。
論文参考訳（メタデータ） (2025-03-18T01:45:51Z)
Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文参考訳（メタデータ） (2024-10-29T19:28:41Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論するモデルの能力を厳格に評価するために設計された新しいベンチマークである。本研究の主目的は,ほとんどのOLMが3モーダル文脈における指示追従能力と推論能力に限界があることである。このギャップに対処するため、84.5KのトレーニングサンプルであるOmniInstructの命令チューニングデータセットをキュレートし、OLMをマルチモーダルなコンテキストに適応させる。
論文参考訳（メタデータ） (2024-09-23T17:59:05Z)
OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces [67.07083389543799]
我々は,70億から300億のパラメータからなる大規模マルチモーダル関節表現モデルOmniBindを提案する。全てのモダリティにまたがるデータペアが不足しているため、スクラッチから大規模モデルをトレーニングする代わりに、様々な事前訓練された専門家モデルの空間を再マッピングし結合することを提案する。実験では、OmniBindのオムニ表現モデルとしての汎用性と優位性を示し、多様なアプリケーションに対するその大きな可能性を強調している。
論文参考訳（メタデータ） (2024-07-16T16:24:31Z)
Multi-Modal Video Dialog State Tracking in the Wild [10.453212911612866]
MST-MIXERは、汎用的なマルチモーダル状態追跡スキーム上で動作する新しいビデオダイアログモデルである。新たなマルチモーダルグラフ構造学習法を用いて,各入力モードの選択した構成成分の不足する基盤構造を予測する。 5つの挑戦的なベンチマークで、最先端の新たな結果を達成する。
論文参考訳（メタデータ） (2024-07-02T12:34:17Z)
Learning Shared RGB-D Fields: Unified Self-supervised Pre-training for Label-efficient LiDAR-Camera 3D Perception [17.11366229887873]
我々は、統合事前訓練戦略、NeRF-Supervised Masked Auto(NS-MAE)を導入する。 NS-MAEは、外観と幾何学の両方を符号化するNeRFの能力を利用して、マルチモーダルデータの効率的なマスク付き再構築を可能にする。結果: NS-MAE は SOTA 事前学習法よりも優れており,各モードに対して個別の戦略を用いる。
論文参考訳（メタデータ） (2024-05-28T08:13:49Z)
MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning [9.540487697801531]
MMEarthは、グローバルスケールでの多様なマルチモーダル事前トレーニングデータセットである。光衛星画像の汎用表現を学習するために,MP-MAE(Multi-Pretext Masked Autoencoder)アプローチを提案する。
論文参考訳（メタデータ） (2024-05-04T23:16:48Z)
MergeOcc: Bridge the Domain Gap between Different LiDARs for Robust Occupancy Prediction [8.993992124170624]
MergeOccは、複数のデータセットを活用することで、異なるLiDARを同時に扱うように開発されている。 MergeOccの有効性は、自動運転車のための2つの顕著なデータセットの実験を通じて検証される。
論文参考訳（メタデータ） (2024-03-13T13:23:05Z)
Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文参考訳（メタデータ） (2024-03-08T16:18:04Z)
ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。 ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。 ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文参考訳（メタデータ） (2023-11-27T18:52:09Z)
Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文参考訳（メタデータ） (2023-08-24T20:46:48Z)
Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文参考訳（メタデータ） (2023-02-16T13:41:19Z)
Generalized Zero-Shot Learning using Multimodal Variational Auto-Encoder with Semantic Concepts [0.9054540533394924]
近年の手法では,意味空間と画像空間の相互マッピングの学習が試みられている。画像特徴と意味空間の共有潜在空間を学習できるマルチモーダル変分自動エンコーダ(M-VAE)を提案する。提案手法は, ゼロショット学習における最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-06-26T20:08:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。