Fugu-MT 論文翻訳(概要): MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning

論文の概要: MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning

arxiv url: http://arxiv.org/abs/2405.02771v2
Date: Mon, 29 Jul 2024 10:35:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-30 23:18:12.345884
Title: MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning
Title（参考訳）: MMEarth:地理空間表現学習のためのマルチモーダル・プレテキスト・タスク
Authors: Vishal Nedungadi, Ankit Kariryaa, Stefan Oehmcke, Serge Belongie, Christian Igel, Nico Lang,
Abstract要約: MMEarthは、グローバルスケールでの多様なマルチモーダル事前トレーニングデータセットである。光衛星画像の汎用表現を学習するために,MP-MAE(Multi-Pretext Masked Autoencoder)アプローチを提案する。
参考スコア（独自算出の注目度）: 9.540487697801531
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The volume of unlabelled Earth observation (EO) data is huge, but many important applications lack labelled training data. However, EO data offers the unique opportunity to pair data from different modalities and sensors automatically based on geographic location and time, at virtually no human labor cost. We seize this opportunity to create MMEarth, a diverse multi-modal pretraining dataset at global scale. Using this new corpus of 1.2 million locations, we propose a Multi-Pretext Masked Autoencoder (MP-MAE) approach to learn general-purpose representations for optical satellite images. Our approach builds on the ConvNeXt V2 architecture, a fully convolutional masked autoencoder (MAE). Drawing upon a suite of multi-modal pretext tasks, we demonstrate that our MP-MAE approach outperforms both MAEs pretrained on ImageNet and MAEs pretrained on domain-specific satellite images. This is shown on several downstream tasks including image classification and semantic segmentation. We find that pretraining with multi-modal pretext tasks notably improves the linear probing performance compared to pretraining on optical satellite images only. This also leads to better label efficiency and parameter efficiency which are crucial aspects in global scale applications.
Abstract（参考訳）: 地球観測(EO)データの量は膨大であるが、多くの重要な応用にはラベル付きトレーニングデータがない。しかし、EOデータには、地理的位置と時間に基づいて、さまざまなモダリティとセンサーからのデータを自動的にペアリングするユニークな機会がある。我々はこの機会を捉え、世界規模で多様なマルチモーダル事前学習データセットであるMMEarthを作成する。この120万箇所の新たなコーパスを用いて,光衛星画像の汎用表現を学習するために,MP-MAE(Multi-Pretext Masked Autoencoder)アプローチを提案する。我々のアプローチは、完全な畳み込みマスク付きオートエンコーダ(MAE)であるConvNeXt V2アーキテクチャに基づいている。マルチモーダル・プレテキスト・タスクの組をベースとしたMP-MAEアプローチは、ImageNetで事前訓練されたMAEと、ドメイン固有の衛星画像で事前訓練されたMAEよりも優れていることを示す。これは、画像分類やセマンティックセグメンテーションを含むいくつかの下流タスクで示される。マルチモーダルプレテキストタスクによる事前トレーニングは,光衛星画像のみの事前トレーニングに比べて,線形探索性能が顕著に向上することがわかった。これにより、グローバルスケールアプリケーションにおいて重要な側面であるラベル効率とパラメータ効率が向上する。

関連論文リスト

Probabilistic Hyper-Graphs using Multiple Randomly Masked Autoencoders for Semi-supervised Multi-modal Multi-task Learning [0.0]
マスク付きオートエンコーダ(PHG-MAE)を用いた確率的ハイパーグラフの導入 PHG-MAEはニューラルグラフに関する古典的な研究を統合する新しいモデルである。アンサンブルの上に知識蒸留を施すことができ、性能が損なわれないことを示す。
論文参考訳（メタデータ） (2025-10-11T07:05:34Z)
A Recipe for Improving Remote Sensing VLM Zero Shot Generalization [0.4427533728730559]
本稿では,リモートセンシング基礎モデルのトレーニングのための2つの新しい画像キャプチャーデータセットを提案する。最初のデータセットは、Google Mapsから抽出されたランドマークを使用して、Geminiによって生成されたキャプションと航空画像と衛星画像のペアである。第2のデータセットは、リモートセンシングドメインのためにフィルタリングされたパブリックWebイメージとそれに対応するalt-textを利用する。
論文参考訳（メタデータ） (2025-03-10T21:09:02Z)
On Domain-Specific Post-Training for Multimodal Large Language Models [72.67107077850939]
本稿では,MLLMのドメイン適応をポストトレーニングにより体系的に検討する。データ合成、トレーニングパイプライン、タスク評価に重点を置いています。バイオメディシン、食品、リモートセンシングなどの高インパクト領域で実験を行う。
論文参考訳（メタデータ） (2024-11-29T18:42:28Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文参考訳（メタデータ） (2024-08-20T09:58:30Z)
Instruction-Guided Visual Masking [25.26544571379426]
Instruction-guided Visual Masking (IVM) は多様なマルチモーダルモデルと互換性のある多目的な視覚的接地モデルである。 IVMを拡張したマルチモーダルモデルは、タスク関連の画像領域に効果的にフォーカスすることで、複雑な命令との整合性を向上することができる。
論文参考訳（メタデータ） (2024-05-30T07:48:32Z)
Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文参考訳（メタデータ） (2024-03-08T16:18:04Z)
Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文参考訳（メタデータ） (2024-02-27T08:27:15Z)
u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文参考訳（メタデータ） (2023-11-09T13:18:27Z)
MIMIC: Masked Image Modeling with Image Correspondences [29.8154890262928]
効果的な事前トレーニングデータセットを構築するための現在の方法は、アノテーション付き3Dメッシュ、ポイントクラウド、シミュレートされた環境からのカメラパラメータに依存している。我々は、追加のアノテーションを必要としない事前トレーニングされたデータセットキュレーションアプローチを提案する。提案手法により,実世界のビデオとシミュレーション環境の両方から,大規模にマルチビューデータセットを生成することができる。
論文参考訳（メタデータ） (2023-06-27T00:40:12Z)
R-MAE: Regions Meet Masked Autoencoders [113.73147144125385]
我々は、自己教師付き画像表現学習のための単語の潜在的な視覚的類似として領域を探索する。生成前トレーニングベースラインであるMasked Autoencoding (MAE) に触発されて, 画素群や領域群から学習するためのマスク付き領域オートエンコーディングを提案する。
論文参考訳（メタデータ） (2023-06-08T17:56:46Z)
CSP: Self-Supervised Contrastive Spatial Pre-Training for Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。 CSPは、様々なラベル付きトレーニングデータサンプリング比と10～34%の相対的な改善で、モデル性能を大幅に向上させる。
論文参考訳（メタデータ） (2023-05-01T23:11:18Z)
Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。 M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文参考訳（メタデータ） (2022-05-27T19:09:42Z)
Semantic Labeling of Large-Area Geographic Regions Using Multi-View and Multi-Date Satellite Images and Noisy OSM Training Labels [0.0]
建物や道路を意味的にラベル付けする新しい多視点学習フレームワークとCNNアーキテクチャを提案する。多視点セマンティックセグメンテーションへのアプローチは,従来の手法に比べてクラスごとのIoUスコアが4-7%向上した。
論文参考訳（メタデータ） (2020-08-24T09:03:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。