論文の概要: MoSAiC: Multi-Modal Multi-Label Supervision-Aware Contrastive Learning for Remote Sensing
- arxiv url: http://arxiv.org/abs/2507.08683v1
- Date: Fri, 11 Jul 2025 15:33:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.405574
- Title: MoSAiC: Multi-Modal Multi-Label Supervision-Aware Contrastive Learning for Remote Sensing
- Title(参考訳): MoSAiC:マルチモーダル・マルチラベル・スーパービジョン-リモートセンシングのためのコントラスト学習
- Authors: Debashis Gupta, Aditi Golder, Rongkhun Zhu, Kangning Cui, Wei Tang, Fan Yang, Ovidiu Csillik, Sarra Alaqahtani, V. Paul Pauca,
- Abstract要約: MoSAiCは,モダリティ内およびモダリティ間コントラスト学習を多ラベル教師付きコントラスト学習と共同で最適化する統合フレームワークである。
MoSAiCは、精度、クラスタコヒーレンス、一般化の点で、完全に教師されたベースラインと自己監督されたベースラインの両方を一貫して上回っている。
- 参考スコア(独自算出の注目度): 10.207026975603503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive learning (CL) has emerged as a powerful paradigm for learning transferable representations without the reliance on large labeled datasets. Its ability to capture intrinsic similarities and differences among data samples has led to state-of-the-art results in computer vision tasks. These strengths make CL particularly well-suited for Earth System Observation (ESO), where diverse satellite modalities such as optical and SAR imagery offer naturally aligned views of the same geospatial regions. However, ESO presents unique challenges, including high inter-class similarity, scene clutter, and ambiguous boundaries, which complicate representation learning -- especially in low-label, multi-label settings. Existing CL frameworks often focus on intra-modality self-supervision or lack mechanisms for multi-label alignment and semantic precision across modalities. In this work, we introduce MoSAiC, a unified framework that jointly optimizes intra- and inter-modality contrastive learning with a multi-label supervised contrastive loss. Designed specifically for multi-modal satellite imagery, MoSAiC enables finer semantic disentanglement and more robust representation learning across spectrally similar and spatially complex classes. Experiments on two benchmark datasets, BigEarthNet V2.0 and Sent12MS, show that MoSAiC consistently outperforms both fully supervised and self-supervised baselines in terms of accuracy, cluster coherence, and generalization in low-label and high-class-overlap scenarios.
- Abstract(参考訳): コントラスト学習(CL)は、大きなラベル付きデータセットに依存することなく、転送可能な表現を学習するための強力なパラダイムとして登場した。
データサンプル間の固有の類似点や相違点を捉える能力は、コンピュータビジョンタスクの最先端の結果をもたらしている。
これらの強度により、CLは特に地球系観測(ESO)に適している。
しかしながら、ESOは、クラス間の高い類似性、シーンのクラッタ、曖昧な境界など、特に低ラベルでマルチラベルな設定において、表現学習を複雑にする独自の課題を提示している。
既存のCLフレームワークは、モダリティ内自己監督やマルチラベルアライメントのメカニズムの欠如、モダリティ間のセマンティック精度に重点を置いていることが多い。
本研究では,モーダリティ内およびモーダリティ間コントラスト学習を多ラベル教師付きコントラスト損失と共同で最適化する統合フレームワークであるMoSAiCを紹介する。
マルチモーダル衛星画像に特化して設計されたMoSAiCは、スペクトル的に類似し空間的に複雑なクラスにまたがって、より微細な意味的絡み合いとより堅牢な表現学習を可能にする。
BigEarthNet V2.0とSent12MSという2つのベンチマークデータセットの実験により、MoSAiCは、低ラベルおよび高レベルのオーバーラップシナリオにおける正確性、クラスタコヒーレンス、一般化という点で、完全に教師されたベースラインと自己監督されたベースラインの両方を一貫して上回っていることが示された。
関連論文リスト
- DSAGL: Dual-Stream Attention-Guided Learning for Weakly Supervised Whole Slide Image Classification [5.260725801393189]
超高解像度でリッチなセマンティックな内容のため,WSIは癌診断に重要である。
DSAGL(Dual-Stream Attention-Guided Learning, DSAGL)は、教師/学生のアーキテクチャと2重ストリーム設計を組み合わせた、弱教師付き分類フレームワークである。
論文 参考訳(メタデータ) (2025-05-29T11:07:16Z) - Imputation-free and Alignment-free: Incomplete Multi-view Clustering Driven by Consensus Semantic Learning [65.75756724642932]
不完全なマルチビュークラスタリングでは、欠落したデータがビュー内のプロトタイプシフトとビュー間のセマンティック不整合を誘導する。
コンセンサスセマンティクス学習(FreeCSL)のためのIMVCフレームワークを提案する。
FreeCSLは、最先端の競合他社と比較して、IMVCタスクの信頼性と堅牢な割り当てを実現している。
論文 参考訳(メタデータ) (2025-05-16T12:37:10Z) - Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention [59.19580789952102]
本稿では,RS画像セマンティックセグメンテーションタスクのための,新しい半教師付きマルチスケール不確かさとクロスTeacher-Student Attention(MUCA)モデルを提案する。
MUCAは、マルチスケールの不確実性整合正則化を導入することにより、ネットワークの異なる層における特徴写像間の整合性を制限する。
MUCAは学生ネットワークの誘導にクロス教師・学生の注意機構を使用し、学生ネットワークにより差別的な特徴表現を構築するよう誘導する。
論文 参考訳(メタデータ) (2025-01-18T11:57:20Z) - SMC-NCA: Semantic-guided Multi-level Contrast for Semi-supervised Temporal Action Segmentation [53.010417880335424]
半教師付き時間的アクションセグメンテーション(SS-TA)は、長編ビデオにおいてフレームワイズ分類を行うことを目的としている。
近年の研究では、教師なし表現学習におけるコントラスト学習の可能性が示されている。
本稿では,SMC-NCA(Neighbourhood-Consistency-Aware Unit)を用いたセマンティック誘導型マルチレベルコントラスト方式を提案する。
論文 参考訳(メタデータ) (2023-12-19T17:26:44Z) - Towards Generalized Multi-stage Clustering: Multi-view Self-distillation [10.368796552760571]
既存のマルチステージクラスタリング手法は、独立して複数のビューから健全な特徴を学習し、クラスタリングタスクを実行する。
本稿では,多視点自己蒸留(DistilMVC)を導入し,ラベル分布の暗黒知識を抽出する多段階深層MVCフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-29T03:35:34Z) - SSLCL: An Efficient Model-Agnostic Supervised Contrastive Learning
Framework for Emotion Recognition in Conversations [20.856739541819056]
会話における感情認識(ERC)は、自然言語処理コミュニティの中で急速に進化している課題である。
We propose a efficient and model-agnostic SCL framework named Supervised Sample-Label Contrastive Learning with Soft-HGR Maximal correlation (SSLCL)。
浅い多層パーセプトロンを通して、離散ラベルを密度の高い埋め込みに投影することで、ラベル表現を活用する新しい視点を導入する。
論文 参考訳(メタデータ) (2023-10-25T14:41:14Z) - Graph-Aware Contrasting for Multivariate Time-Series Classification [50.84488941336865]
既存のコントラスト学習手法は主に、時間的拡張とコントラスト技術による時間的一貫性を達成することに焦点を当てている。
MTSデータ間の空間的整合性を考慮したグラフ認識コントラストを提案する。
提案手法は,様々なMSS分類タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T02:35:22Z) - Multi-Scale Cross Contrastive Learning for Semi-Supervised Medical Image
Segmentation [14.536384387956527]
医用画像の構造を分割するマルチスケールクロススーパービジョンコントラスト学習フレームワークを開発した。
提案手法は,頑健な特徴表現を抽出するために,地上構造と横断予測ラベルに基づくマルチスケール特徴と対比する。
Diceでは最先端の半教師あり手法を3.0%以上上回っている。
論文 参考訳(メタデータ) (2023-06-25T16:55:32Z) - Efficient Bilateral Cross-Modality Cluster Matching for Unsupervised Visible-Infrared Person ReID [56.573905143954015]
本稿では, クラスタ間マッチングによるモダリティギャップを低減するための, クラスタマッチングに基づく新たな学習フレームワークを提案する。
このような監視信号の下では、クラスタレベルで特徴を協調的に整列させるために、モダリティ・特定・モダリティ・非依存(MSMA)コントラスト学習フレームワークが提案されている。
公開SYSU-MM01とRegDBデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-22T03:27:46Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z) - Spatial-Temporal Multi-Cue Network for Continuous Sign Language
Recognition [141.24314054768922]
本稿では、視覚に基づくシーケンス学習問題を解決するために、時空間マルチキュー(STMC)ネットワークを提案する。
有効性を検証するため、3つの大規模CSLRベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-02-08T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。