Fugu-MT 論文翻訳(概要): OmniSat: Self-Supervised Modality Fusion for Earth Observation

論文の概要: OmniSat: Self-Supervised Modality Fusion for Earth Observation

arxiv url: http://arxiv.org/abs/2404.08351v3
Date: Wed, 17 Jul 2024 08:16:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-18 22:07:40.943527
Title: OmniSat: Self-Supervised Modality Fusion for Earth Observation
Title（参考訳）: オムニサット:地球観測のための自己監督されたモーダリティ融合
Authors: Guillaume Astruc, Nicolas Gonthier, Clement Mallet, Loic Landrieu,
Abstract要約: OmniSatは、多様なEOモダリティをラベルなしで表現的特徴にマージできる新しいアーキテクチャである。 3つの下流タスクで示されているように、OmniSatは監督なしでリッチな表現を学ぶことができ、最先端のパフォーマンスをもたらす。我々のマルチモーダル事前学習方式は,1つのモーダルしか推論できない場合でも性能が向上する。
参考スコア（独自算出の注目度）: 5.767156832161819
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The diversity and complementarity of sensors available for Earth Observations (EO) calls for developing bespoke self-supervised multimodal learning approaches. However, current multimodal EO datasets and models typically focus on a single data type, either mono-date images or time series, which limits their impact. To address this issue, we introduce OmniSat, a novel architecture able to merge diverse EO modalities into expressive features without labels by exploiting their alignment. To demonstrate the advantages of our approach, we create two new multimodal datasets by augmenting existing ones with new modalities. As demonstrated for three downstream tasks -- forestry, land cover classification, and crop mapping -- OmniSat can learn rich representations without supervision, leading to state-of-the-art performances in semi- and fully supervised settings. Furthermore, our multimodal pretraining scheme improves performance even when only one modality is available for inference. The code and dataset are available at https://github.com/gastruc/OmniSat.
Abstract（参考訳）: 地球観測(EO)で利用可能なセンサーの多様性と相補性は、自制的なマルチモーダル学習アプローチを開発することを要求する。しかしながら、現在のマルチモーダルなEOデータセットとモデルは通常、単一日付の画像または時系列のいずれかで、その影響を制限する単一のデータタイプにフォーカスする。この問題に対処するため、我々はOmniSatを紹介した。OmniSatは、多種多様なEOモダリティをラベルなしで表現的特徴にマージできる新しいアーキテクチャで、アライメントを活用できる。このアプローチの利点を実証するために、既存のデータセットを新しいモダリティで拡張することで、2つの新しいマルチモーダルデータセットを作成します。 OmniSatは3つの下流タスク(林業、土地被覆分類、作物マッピング)で実証されているように、監督なしでリッチな表現を学習できるため、半監督と完全に監督された環境下での最先端のパフォーマンスに繋がる。さらに,マルチモーダル事前学習方式では,1つのモーダルしか推論できない場合でも,性能が向上する。コードとデータセットはhttps://github.com/gastruc/OmniSat.comで入手できる。

関連論文リスト

Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。 Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文参考訳（メタデータ） (2025-10-27T03:52:45Z)
OmniSegmentor: A Flexible Multi-Modal Learning Framework for Semantic Segmentation [74.55725909072903]
我々はOmniSegmentorと呼ばれる新しいマルチモーダル学習フレームワークを提案する。 ImageNetに基づいて、ImageNeXtと呼ばれるマルチモーダル事前学習のための大規模なデータセットを組み立てる。様々なシナリオにまたがってモデルの知覚能力を一貫して増幅する、普遍的なマルチモーダル事前学習フレームワークを導入する。
論文参考訳（メタデータ） (2025-09-18T15:52:44Z)
MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data [6.142054389646456]
本稿では,Masked Autoencoder の新たな適応である MAESTRO について紹介する。我々は,4つの地球観測データセットにおけるMAESTROの評価を行った。
論文参考訳（メタデータ） (2025-08-14T17:58:45Z)
TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation [65.74990259650984]
本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。 TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
論文参考訳（メタデータ） (2025-06-06T17:59:50Z)
TerraMind: Large-Scale Generative Multimodality for Earth Observation [3.5472166810202457]
TerraMindは、地球観測のための初の生成的マルチモーダル基礎モデルである。他のマルチモーダルモデルとは異なり、TerraMindはトークンレベルとピクセルレベルのデータを組み合わせたデュアルスケール表現で事前訓練されている。
論文参考訳（メタデータ） (2025-04-15T13:17:39Z)
FusDreamer: Label-efficient Remote Sensing World Model for Multimodal Data Classification [7.523866920738647]
本稿では,マルチモーダルデータ融合(FusDreamer)のためのラベル効率のよいリモートセンシング世界モデルを提案する。 FusDreamerは、世界モデルを統一表現コンテナとして使用して、共通知識と高レベルの知識を抽象化する。 4つの典型的なデータセットで実施された実験は、提案されたFusDreamerの有効性と利点を示している。
論文参考訳（メタデータ） (2025-03-18T01:45:51Z)
Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文参考訳（メタデータ） (2024-10-29T19:28:41Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論するモデルの能力を厳格に評価するために設計された新しいベンチマークである。本研究の主目的は,ほとんどのOLMが3モーダル文脈における指示追従能力と推論能力に限界があることである。このギャップに対処するため、84.5KのトレーニングサンプルであるOmniInstructの命令チューニングデータセットをキュレートし、OLMをマルチモーダルなコンテキストに適応させる。
論文参考訳（メタデータ） (2024-09-23T17:59:05Z)
OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces [67.07083389543799]
我々は,70億から300億のパラメータからなる大規模マルチモーダル関節表現モデルOmniBindを提案する。全てのモダリティにまたがるデータペアが不足しているため、スクラッチから大規模モデルをトレーニングする代わりに、様々な事前訓練された専門家モデルの空間を再マッピングし結合することを提案する。実験では、OmniBindのオムニ表現モデルとしての汎用性と優位性を示し、多様なアプリケーションに対するその大きな可能性を強調している。
論文参考訳（メタデータ） (2024-07-16T16:24:31Z)
Multi-Modal Video Dialog State Tracking in the Wild [10.453212911612866]
MST-MIXERは、汎用的なマルチモーダル状態追跡スキーム上で動作する新しいビデオダイアログモデルである。新たなマルチモーダルグラフ構造学習法を用いて,各入力モードの選択した構成成分の不足する基盤構造を予測する。 5つの挑戦的なベンチマークで、最先端の新たな結果を達成する。
論文参考訳（メタデータ） (2024-07-02T12:34:17Z)
Learning Shared RGB-D Fields: Unified Self-supervised Pre-training for Label-efficient LiDAR-Camera 3D Perception [17.11366229887873]
我々は、統合事前訓練戦略、NeRF-Supervised Masked Auto(NS-MAE)を導入する。 NS-MAEは、外観と幾何学の両方を符号化するNeRFの能力を利用して、マルチモーダルデータの効率的なマスク付き再構築を可能にする。結果: NS-MAE は SOTA 事前学習法よりも優れており,各モードに対して個別の戦略を用いる。
論文参考訳（メタデータ） (2024-05-28T08:13:49Z)
MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning [9.540487697801531]
MMEarthは、グローバルスケールでの多様なマルチモーダル事前トレーニングデータセットである。光衛星画像の汎用表現を学習するために,MP-MAE(Multi-Pretext Masked Autoencoder)アプローチを提案する。
論文参考訳（メタデータ） (2024-05-04T23:16:48Z)
MergeOcc: Bridge the Domain Gap between Different LiDARs for Robust Occupancy Prediction [8.993992124170624]
MergeOccは、複数のデータセットを活用することで、異なるLiDARを同時に扱うように開発されている。 MergeOccの有効性は、自動運転車のための2つの顕著なデータセットの実験を通じて検証される。
論文参考訳（メタデータ） (2024-03-13T13:23:05Z)
Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文参考訳（メタデータ） (2024-03-08T16:18:04Z)
ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。 ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。 ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文参考訳（メタデータ） (2023-11-27T18:52:09Z)
Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文参考訳（メタデータ） (2023-08-24T20:46:48Z)
Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文参考訳（メタデータ） (2023-02-16T13:41:19Z)
Generalized Zero-Shot Learning using Multimodal Variational Auto-Encoder with Semantic Concepts [0.9054540533394924]
近年の手法では,意味空間と画像空間の相互マッピングの学習が試みられている。画像特徴と意味空間の共有潜在空間を学習できるマルチモーダル変分自動エンコーダ(M-VAE)を提案する。提案手法は, ゼロショット学習における最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-06-26T20:08:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。