論文の概要: MSSDF: Modality-Shared Self-supervised Distillation for High-Resolution Multi-modal Remote Sensing Image Learning
- arxiv url: http://arxiv.org/abs/2506.09327v1
- Date: Wed, 11 Jun 2025 02:01:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.183404
- Title: MSSDF: Modality-Shared Self-supervised Distillation for High-Resolution Multi-modal Remote Sensing Image Learning
- Title(参考訳): MSSDF:高分解能マルチモーダルリモートセンシング画像学習のためのモダリティ共有型自己教師型蒸留
- Authors: Tong Wang, Guanzhou Chen, Xiaodong Zhang, Chenxi Liu, Jiaqi Wang, Xiaoliang Tan, Wenchao Guo, Qingyuan Yang, Kaiqi Zhang,
- Abstract要約: 本稿では,高解像度RGB画像,マルチスペクトルデータ,デジタル表面モデル(DSM)を事前学習に用いるマルチモーダル自己教師学習フレームワークを提案する。
提案手法は,シーン分類,セマンティックセグメンテーション,変化検出,オブジェクト検出,深度推定など,典型的なリモートセンシングアプリケーションを対象として,複数のダウンストリームタスクに対して評価を行う。
- 参考スコア(独自算出の注目度): 25.381211868583826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing image interpretation plays a critical role in environmental monitoring, urban planning, and disaster assessment. However, acquiring high-quality labeled data is often costly and time-consuming. To address this challenge, we proposes a multi-modal self-supervised learning framework that leverages high-resolution RGB images, multi-spectral data, and digital surface models (DSM) for pre-training. By designing an information-aware adaptive masking strategy, cross-modal masking mechanism, and multi-task self-supervised objectives, the framework effectively captures both the correlations across different modalities and the unique feature structures within each modality. We evaluated the proposed method on multiple downstream tasks, covering typical remote sensing applications such as scene classification, semantic segmentation, change detection, object detection, and depth estimation. Experiments are conducted on 15 remote sensing datasets, encompassing 26 tasks. The results demonstrate that the proposed method outperforms existing pretraining approaches in most tasks. Specifically, on the Potsdam and Vaihingen semantic segmentation tasks, our method achieved mIoU scores of 78.30\% and 76.50\%, with only 50\% train-set. For the US3D depth estimation task, the RMSE error is reduced to 0.182, and for the binary change detection task in SECOND dataset, our method achieved mIoU scores of 47.51\%, surpassing the second CS-MAE by 3 percentage points. Our pretrain code, checkpoints, and HR-Pairs dataset can be found in https://github.com/CVEO/MSSDF.
- Abstract(参考訳): リモートセンシング画像解釈は, 環境モニタリング, 都市計画, 災害評価において重要な役割を担っている。
しかし、高品質なラベル付きデータを取得することは、しばしばコストと時間を要する。
この課題に対処するために,高解像度RGB画像,マルチスペクトルデータ,デジタル表面モデル(DSM)を事前学習に用いるマルチモーダル自己教師型学習フレームワークを提案する。
情報認識型適応マスキング戦略,クロスモーダルマスキング機構,マルチタスク型自己組織化目標を設計することにより,各モーダル内の異なるモーダル間の相関関係と特徴構造を効果的に把握する。
提案手法は,シーン分類,セマンティックセグメンテーション,変化検出,オブジェクト検出,深度推定など,典型的なリモートセンシングアプリケーションを対象として,複数のダウンストリームタスクに対して評価を行った。
実験は、26のタスクを含む15のリモートセンシングデータセットで実施されている。
提案手法は,多くのタスクにおいて既存の事前学習手法よりも優れていることを示す。
具体的には,ポツダムとヴァイヒンゲンのセマンティックセグメンテーションタスクにおいて,mIoUスコアは78.30\%,76.50\%,列車セットは50\%であった。
US3D深度推定タスクではRMSE誤差が0.182に減少し,SECONDデータセットの2値変化検出タスクではmIoUスコアが47.51\%となり,第2のCS-MAEを3ポイント上回った。
事前トレーニングコード、チェックポイント、HR-Pairsデータセットは、https://github.com/CVEO/MSSDF.orgで参照できます。
関連論文リスト
- SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - VLMine: Long-Tail Data Mining with Vision Language Models [18.412533708652102]
この研究は、ラベルなしデータのコーパス内の稀な例を識別する問題に焦点を当てている。
本稿では,大規模視覚言語モデル(VLM)に含まれる知識を活用する,シンプルでスケーラブルなデータマイニング手法を提案する。
私たちの実験は、ベースライン技術よりも大きな改善(10%から50%)を示しています。
論文 参考訳(メタデータ) (2024-09-23T19:13:51Z) - A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Multi-Level Contrastive Learning for Dense Prediction Task [59.591755258395594]
本稿では,高密度予測タスクのための領域レベルの特徴表現を効率よく学習するための,MCL(Multi-Level Contrastive Learning for Dense Prediction Task)を提案する。
本手法は, 局所化, スケールの整合性, 認識の3つの要因に動機付けられている。
提案手法は,様々なデータセットにおける最近の最先端の手法よりも有意なマージンを有する。
論文 参考訳(メタデータ) (2023-04-04T17:59:04Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - Parameter Sharing Exploration and Hetero-Center based Triplet Loss for
Visible-Thermal Person Re-Identification [17.402673438396345]
本稿では,VT Re-ID(VT Re-ID)タスクについて述べる。
提案手法は,最先端の手法を大きなマージンで明らかに上回っている。
論文 参考訳(メタデータ) (2020-08-14T07:40:35Z) - SL-DML: Signal Level Deep Metric Learning for Multimodal One-Shot Action
Recognition [0.0]
埋め込み空間における近接探索に対する行動認識問題を削減するための計量学習手法を提案する。
我々は信号を画像にエンコードし、深い残差CNNを用いて特徴を抽出する。
結果として得られるエンコーダは特徴を埋め込み空間に変換し、より近い距離は類似の動作を符号化し、高い距離は異なる動作を符号化する。
論文 参考訳(メタデータ) (2020-04-23T11:28:27Z) - FairMOT: On the Fairness of Detection and Re-Identification in Multiple
Object Tracking [92.48078680697311]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要な問題である。
本稿では,FairMOTと呼ばれる,アンカーフリーなオブジェクト検出アーキテクチャCenterNetをベースとした,シンプルかつ効果的なアプローチを提案する。
このアプローチは、検出と追跡の両方において高い精度を達成する。
論文 参考訳(メタデータ) (2020-04-04T08:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。