Fugu-MT 論文翻訳(概要): NeighborMAE: Exploiting Spatial Dependencies between Neighboring Earth Observation Images in Masked Autoencoders Pretraining

論文の概要: NeighborMAE: Exploiting Spatial Dependencies between Neighboring Earth Observation Images in Masked Autoencoders Pretraining

arxiv url: http://arxiv.org/abs/2603.02522v1
Date: Tue, 03 Mar 2026 02:14:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-04 21:38:10.600843
Title: NeighborMAE: Exploiting Spatial Dependencies between Neighboring Earth Observation Images in Masked Autoencoders Pretraining
Title（参考訳）: NeighborMAE:仮設オートエンコーダの隣接地観測画像間の空間依存性の爆発
Authors: Liang Zeng, Valerio Marsocci, Wufan Zhao, Andrea Nascetti, Maarten Vergauwen,
Abstract要約: 近隣の地球観測画像を共同で再構成することで空間的依存関係を学習する。本研究では,近隣の地球観測画像を共同で再構成することで空間依存を学習するNeighborMAEを提案する。
参考スコア（独自算出の注目度）: 4.35253760452364
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Masked Image Modeling has been one of the most popular self-supervised learning paradigms to learn representations from large-scale, unlabeled Earth Observation images. While incorporating multi-modal and multi-temporal Earth Observation data into Masked Image Modeling has been widely explored, the spatial dependencies between images captured from neighboring areas remains largely overlooked. Since the Earth's surface is continuous, neighboring images are highly related and offer rich contextual information for self-supervised learning. To close this gap, we propose NeighborMAE, which learns spatial dependencies by joint reconstruction of neighboring Earth Observation images. To ensure that the reconstruction remains challenging, we leverage a heuristic strategy to dynamically adjust the mask ratio and the pixel-level loss weight. Experimental results across various pretraining datasets and downstream tasks show that NeighborMAE significantly outperforms existing baselines, underscoring the value of neighboring images in Masked Image Modeling for Earth Observation and the efficacy of our designs.
Abstract（参考訳）: Masked Image Modelingは、大規模でラベルなしの地球観測画像から表現を学習する最も一般的な自己教師型学習パラダイムの1つである。マルチモーダル・マルチ時間地球観測データをマスケ画像モデリングに組み込む手法が広く研究されているが、周辺地域の画像間の空間的依存関係はほとんど見落とされ続けている。地球の表面は連続しているため、隣接する画像は密接な関係にあり、自己監督学習のための豊富な文脈情報を提供する。このギャップを埋めるために、近隣の地球観測画像を共同で再構成することで空間依存を学習するNeighborMAEを提案する。再建が困難であることを保証するため,マスク比と画素レベルの損失重量を動的に調整するためのヒューリスティック戦略を利用する。種々の事前学習データセットと下流タスクによる実験結果から、NeighborMAEは既存のベースラインよりも大幅に優れており、Masked Image Modeling for Earth Observationにおける近隣画像の価値と、我々の設計の有効性が評価されている。

関連論文リスト

TerraMAE: Learning Spatial-Spectral Representations from Hyperspectral Earth Observation Data via Adaptive Masked Autoencoders [1.1999555634662633]
多様な地理空間解析のための空間スペクトル埋め込みを高度に代表的に学習するために設計された新しいHSI符号化フレームワークTerraMAEを紹介する。高忠実度画像再構成における空間-スペクトル情報保存によるその効果を実証する。
論文参考訳（メタデータ） (2025-08-09T15:32:22Z)
TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation [65.74990259650984]
本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。 TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
論文参考訳（メタデータ） (2025-06-06T17:59:50Z)
AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis [57.249817395828174]
本研究では,3次元都市規模のメッシュからの擬似合成レンダリングと,実地レベルでのクラウドソース画像を組み合わせたスケーラブルなフレームワークを提案する。擬似合成データは、幅広い空中視点をシミュレートする一方、実際のクラウドソース画像は、地上レベルの画像の視覚的忠実度を改善するのに役立つ。このハイブリッドデータセットを使用して、いくつかの最先端のアルゴリズムを微調整し、実世界のゼロショット地上作業において大幅な改善を実現する。
論文参考訳（メタデータ） (2025-04-17T17:57:05Z)
Exact: Exploring Space-Time Perceptive Clues for Weakly Supervised Satellite Image Time Series Semantic Segmentation [11.193770734116981]
本論文は,作物マッピングタスクを総括的アノテーション負担から解放する,弱教師付きパラダイム(画像レベルのカテゴリのみ使用可能な)を取り入れたものである。本稿では,時空知覚的手がかりを探索する新しい手法を提案する。本手法は,様々なSITSベンチマークにおいて顕著な性能を示す。
論文参考訳（メタデータ） (2024-12-05T08:37:56Z)
A Causally Informed Pretraining Approach for Multimodal Foundation Models: Applications in Remote Sensing [16.824262496666893]
大規模データを用いた基礎モデルの事前学習のための強力なパラダイムとして,自己教師型学習が登場している。条件生成タスクとして予測をモデル化する新しい事前学習タスクであるCausally Informed Variable-Step Forecasting (CI-VSF)を提案する。このような事前学習は,予測と予測の両方に微調整を施すと,性能が向上することを示す。
論文参考訳（メタデータ） (2024-07-29T02:49:55Z)
SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文参考訳（メタデータ） (2024-03-25T10:30:22Z)
Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文参考訳（メタデータ） (2024-03-23T22:32:06Z)
CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。 CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文参考訳（メタデータ） (2023-09-28T18:04:43Z)
Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文参考訳（メタデータ） (2023-08-13T10:07:46Z)
Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文参考訳（メタデータ） (2023-03-12T05:28:55Z)
A Contrastive Learning Approach to Auroral Identification and Classification [0.8399688944263843]
オーロラ画像分類の課題に対する教師なし学習の新たな応用法を提案する。オーロラ画像の表現を学習するためのコントラスト学習(SimCLR)アルゴリズムを改良し,適応する。当社のアプローチは、運用目的の確立されたしきい値を超え、デプロイメントと利用の準備ができていることを実証しています。
論文参考訳（メタデータ） (2021-09-28T17:51:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。