論文の概要: Pixel-Wise Multimodal Contrastive Learning for Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2601.04127v1
- Date: Wed, 07 Jan 2026 17:41:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.221541
- Title: Pixel-Wise Multimodal Contrastive Learning for Remote Sensing Images
- Title(参考訳): リモートセンシング画像のためのPixel-Wise Multimodal Contrastive Learning
- Authors: Leandro Stival, Ricardo da Silva Torres, Helio Pedrini,
- Abstract要約: 衛星画像からの視覚特性の変動を符号化するために,ピクセルワイズ2次元(2次元)表現を利用する新しい手法を提案する。
PIMC(PIxel-wise Multimodal Contrastive)も導入した。
実験結果から,2次元表現を用いることで,SITSからの特徴抽出が大幅に向上することが示唆された。
- 参考スコア(独自算出の注目度): 3.346542738111468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Satellites continuously generate massive volumes of data, particularly for Earth observation, including satellite image time series (SITS). However, most deep learning models are designed to process either entire images or complete time series sequences to extract meaningful features for downstream tasks. In this study, we propose a novel multimodal approach that leverages pixel-wise two-dimensional (2D) representations to encode visual property variations from SITS more effectively. Specifically, we generate recurrence plots from pixel-based vegetation index time series (NDVI, EVI, and SAVI) as an alternative to using raw pixel values, creating more informative representations. Additionally, we introduce PIxel-wise Multimodal Contrastive (PIMC), a new multimodal self-supervision approach that produces effective encoders based on two-dimensional pixel time series representations and remote sensing imagery (RSI). To validate our approach, we assess its performance on three downstream tasks: pixel-level forecasting and classification using the PASTIS dataset, and land cover classification on the EuroSAT dataset. Moreover, we compare our results to state-of-the-art (SOTA) methods on all downstream tasks. Our experimental results show that the use of 2D representations significantly enhances feature extraction from SITS, while contrastive learning improves the quality of representations for both pixel time series and RSI. These findings suggest that our multimodal method outperforms existing models in various Earth observation tasks, establishing it as a robust self-supervision framework for processing both SITS and RSI. Code avaliable on
- Abstract(参考訳): 衛星は、特に衛星画像時系列(SITS)を含む地球観測のために、継続的に大量のデータを生成する。
しかし、ほとんどのディープラーニングモデルは、ダウンストリームタスクに意味のある特徴を抽出するために、全画像または全時系列シーケンスを処理するように設計されている。
本研究では,SITSの視覚的特性変化をより効果的に符号化するために,ピクセルワイド2次元(2次元)表現を利用した新しいマルチモーダル手法を提案する。
具体的には、画素ベースの植生指標時系列(NDVI、EVI、SAVI)から、原画素値の代替として繰り返しプロットを生成し、より情報的な表現を生成する。
さらに,PIMC(PIxel-wise Multimodal Contrastive)を導入し,2次元画素時系列表現とリモートセンシング画像(RSI)に基づいて効率的なエンコーダを生成する。
提案手法の有効性を検証するため,PASTISデータセットを用いた画素レベルの予測と分類,EuroSATデータセットを用いた土地被覆分類の3つの下流タスクにおける性能評価を行った。
さらに,本研究の結果を,下流タスクのSOTA(State-of-the-art)手法と比較した。
実験の結果,2次元表現はSITSの特徴抽出を著しく向上させる一方,コントラスト学習は画素時系列とRSIの両方の表現の質を向上させることがわかった。
これらの結果から,本手法は,SITSとRSIの両方を処理するための堅牢な自己超越フレームワークとして確立され,地球観測タスクにおける既存モデルよりも優れていたことが示唆された。
avaliable (複数形 avaliables)
関連論文リスト
- A Recipe for Improving Remote Sensing VLM Zero Shot Generalization [0.4427533728730559]
本稿では,リモートセンシング基礎モデルのトレーニングのための2つの新しい画像キャプチャーデータセットを提案する。
最初のデータセットは、Google Mapsから抽出されたランドマークを使用して、Geminiによって生成されたキャプションと航空画像と衛星画像のペアである。
第2のデータセットは、リモートセンシングドメインのためにフィルタリングされたパブリックWebイメージとそれに対応するalt-textを利用する。
論文 参考訳(メタデータ) (2025-03-10T21:09:02Z) - Galileo: Learning Global & Local Features of Many Remote Sensing Modalities [34.71460539414284]
そこで本稿では,マスクモデルを用いて,柔軟な入力モダリティの集合にまたがるマルチスケール特徴を抽出する,自己教師付き学習アルゴリズムを提案する。
私たちのガリレオは、11のベンチマークと複数のタスクで衛星画像とピクセル時系列のSoTAスペシャリストモデルを上回る、単一のジェネラリストモデルです。
論文 参考訳(メタデータ) (2025-02-13T14:21:03Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [88.85002707211777]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークはVFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出する。
このアライメントは、クロスモーダルな表現学習を促進し、2Dデータと3Dデータのセマンティック一貫性を高める。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - Deep Multimodal Fusion for Semantic Segmentation of Remote Sensing Earth Observation Data [0.08192907805418582]
本稿では,セマンティックセグメンテーションのための後期融合深層学習モデル(LF-DLM)を提案する。
1つのブランチは、UNetFormerがキャプチャした空中画像の詳細なテクスチャと、ViT(Multi-Axis Vision Transformer)バックボーンを統合する。
もう一方のブランチは、U-ViNet(U-TAE)を用いてSentinel-2衛星画像Max時系列から複雑な時間ダイナミクスをキャプチャする。
論文 参考訳(メタデータ) (2024-10-01T07:50:37Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Inertial Sensor Data To Image Encoding For Human Action Recognition [0.0]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンの分野で成功したディープラーニングモデルである。
本稿では,慣性センサデータから活動画像への変換に4種類の空間領域法を用いる。
マルチモーダル・フュージョン・フレームワークを構築するために,2つの空間領域フィルタを結合して各種類のアクティビティ・イメージをマルチモーダル化した。
論文 参考訳(メタデータ) (2021-05-28T01:22:52Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。