論文の概要: Using Multiple Input Modalities Can Improve Data-Efficiency and O.O.D. Generalization for ML with Satellite Imagery
- arxiv url: http://arxiv.org/abs/2507.13385v1
- Date: Tue, 15 Jul 2025 22:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.059375
- Title: Using Multiple Input Modalities Can Improve Data-Efficiency and O.O.D. Generalization for ML with Satellite Imagery
- Title(参考訳): 衛星画像を用いたMLにおける複数入力モードを用いたデータ効率の向上とO.O.D.一般化
- Authors: Arjun Rao, Esther Rolf,
- Abstract要約: 衛星画像(SatML)に基づいて訓練された機械学習モデルの大部分は、主にマルチスペクトル衛星画像のような光学的入力モダリティのために設計されている。
分類、回帰、セグメンテーションにまたがるデータセットに地理的データ層を追加することで、SatMLベンチマークタスクの拡張バージョンを生成します。
また,SatMLモデルの性能向上が期待できる。
- 参考スコア(独自算出の注目度): 3.3964392722361785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A large variety of geospatial data layers is available around the world ranging from remotely-sensed raster data like satellite imagery, digital elevation models, predicted land cover maps, and human-annotated data, to data derived from environmental sensors such as air temperature or wind speed data. A large majority of machine learning models trained on satellite imagery (SatML), however, are designed primarily for optical input modalities such as multi-spectral satellite imagery. To better understand the value of using other input modalities alongside optical imagery in supervised learning settings, we generate augmented versions of SatML benchmark tasks by appending additional geographic data layers to datasets spanning classification, regression, and segmentation. Using these augmented datasets, we find that fusing additional geographic inputs with optical imagery can significantly improve SatML model performance. Benefits are largest in settings where labeled data are limited and in geographic out-of-sample settings, suggesting that multi-modal inputs may be especially valuable for data-efficiency and out-of-sample performance of SatML models. Surprisingly, we find that hard-coded fusion strategies outperform learned variants, with interesting implications for future work.
- Abstract(参考訳): 衛星画像のようなリモートセンシングされたラスタデータ、デジタル高度モデル、予測された土地被覆地図、人間による注釈付きデータから、空気温度や風速データといった環境センサーから得られたデータまで、さまざまな地理空間データ層が世界中で利用可能である。
しかし、衛星画像(SatML)に基づいて訓練された機械学習モデルの大部分は、主にマルチスペクトル衛星画像のような光学的入力モダリティのために設計されている。
教師付き学習環境において、光学画像とともに他の入力モダリティを使用することの価値をよりよく理解するために、分類、回帰、セグメンテーションを対象とするデータセットに追加の地理的データ層を追加することで、SatMLベンチマークタスクの拡張版を生成する。
これらの拡張データセットを用いて、光学画像と追加の地理入力を融合させることで、SatMLモデルの性能が大幅に向上することがわかった。
ベネフィットはラベル付きデータが制限された設定で最大であり、地理的にサンプル外設定では、SatMLモデルのデータ効率とサンプル外パフォーマンスに特に有用である可能性が示唆されている。
驚くべきことに、ハードコードされた核融合戦略は学習された変種よりも優れており、今後の研究に興味深い意味を持つ。
関連論文リスト
- EarthView: A Large Scale Remote Sensing Dataset for Self-Supervision [72.84868704100595]
本稿では,地球モニタリングタスクにおける深層学習アプリケーションを強化することを目的とした,リモートセンシングデータの自己監督を目的としたデータセットを提案する。
このデータセットは15テラピクセルのグローバルリモートセンシングデータにまたがっており、NEON、Sentinel、Satellogicによる1mの空間解像度データの新たなリリースなど、さまざまなソースの画像を組み合わせている。
このデータセットは、リモートセンシングデータの異なる課題に取り組むために開発されたMasked Autoencoderである。
論文 参考訳(メタデータ) (2025-01-14T13:42:22Z) - M3LEO: A Multi-Modal, Multi-Label Earth Observation Dataset Integrating Interferometric SAR and Multispectral Data [1.4053129774629076]
M3LEOはマルチモーダルでマルチラベルの地球観測データセットである。
6つの地理的領域から約17M 4x4 kmのデータチップにまたがる。
論文 参考訳(メタデータ) (2024-06-06T16:30:41Z) - SatSwinMAE: Efficient Autoencoding for Multiscale Time-series Satellite Imagery [1.6180992915701702]
衛星時系列データのための時間情報を統合するために,SwinEモデルを拡張した。
このアーキテクチャでは、階層的な3D Masked Autoencoder (MAE) と Video Swin Transformer ブロックを採用している。
提案手法は, 既存の基盤モデルに対して, 評価された下流タスクすべてに対して, 大幅な性能向上を図っている。
論文 参考訳(メタデータ) (2024-05-03T22:55:56Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery [22.716322265391852]
衛星コントラスト位置画像事前学習(SatCLIP)について紹介する。
SatCLIPは、公開衛星画像のCNNとViTの視覚パターンを地理的座標と一致させることで、位置の暗黙的な表現を学習する。
実験では、温度予測、動物認識、人口密度推定を含む9つの異なる位置依存タスクにおいて、SatCLIP埋め込みを用いて予測性能を向上させる。
論文 参考訳(メタデータ) (2023-11-28T19:14:40Z) - Diffusion Models for Interferometric Satellite Aperture Radar [73.01013149014865]
確率拡散モデル (Probabilistic Diffusion Models, PDMs) は、最近、非常に有望な生成モデルのクラスとして登場した。
ここでは、PDMを活用して、レーダーベースの衛星画像データセットを複数生成する。
PDMは複雑で現実的な構造を持つ画像を生成することに成功したが、サンプリング時間は依然として問題である。
論文 参考訳(メタデータ) (2023-08-31T16:26:17Z) - Semantic Segmentation of Vegetation in Remote Sensing Imagery Using Deep
Learning [77.34726150561087]
本稿では,公開されているリモートセンシングデータからなるマルチモーダル・大規模時間データセットを作成するためのアプローチを提案する。
我々は、異なる種類の植生を分離できる畳み込みニューラルネットワーク(CNN)モデルを使用する。
論文 参考訳(メタデータ) (2022-09-28T18:51:59Z) - SatMAE: Pre-training Transformers for Temporal and Multi-Spectral
Satellite Imagery [74.82821342249039]
Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。
時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
論文 参考訳(メタデータ) (2022-07-17T01:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。