論文の概要: CromSS: Cross-modal pre-training with noisy labels for remote sensing image segmentation
- arxiv url: http://arxiv.org/abs/2405.01217v3
- Date: Mon, 17 Mar 2025 07:26:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:57:13.848901
- Title: CromSS: Cross-modal pre-training with noisy labels for remote sensing image segmentation
- Title(参考訳): CromSS:リモートセンシング画像セグメンテーションのためのノイズラベルを用いたクロスモーダル事前学習
- Authors: Chenying Liu, Conrad Albrecht, Yi Wang, Xiao Xiang Zhu,
- Abstract要約: 我々は,意味的セグメンテーションモデルを事前学習することで特徴学習を強化するために,大規模雑音ラベル付きデータの可能性を探る。
従来の事前トレーニングアプローチとは異なり、CromSSは大量のノイズと簡単に得られるラベルを活用して、機能学習を改善している。
- 参考スコア(独自算出の注目度): 18.276988929148143
- License:
- Abstract: We explore the potential of large-scale noisily labeled data to enhance feature learning by pretraining semantic segmentation models within a multi-modal framework for geospatial applications. We propose a novel Cross-modal Sample Selection (CromSS) method, a weakly supervised pretraining strategy designed to improve feature representations through cross-modal consistency and noise mitigation techniques. Unlike conventional pretraining approaches, CromSS exploits massive amounts of noisy and easy-to-come-by labels for improved feature learning beneficial to semantic segmentation tasks. We investigate middle and late fusion strategies to optimize the multi-modal pretraining architecture design. We also introduce a cross-modal sample selection module to mitigate the adverse effects of label noise, which employs a cross-modal entangling strategy to refine the estimated confidence masks within each modality to guide the sampling process. Additionally, we introduce a spatial-temporal label smoothing technique to counteract overconfidence for enhanced robustness against noisy labels. To validate our approach, we assembled the multi-modal dataset, NoLDO-S12, which consists of a large-scale noisy label subset from Google's Dynamic World (DW) dataset for pretraining and two downstream subsets with high-quality labels from Google DW and OpenStreetMap (OSM) for transfer learning. Experimental results on two downstream tasks and the publicly available DFC2020 dataset demonstrate that when effectively utilized, the low-cost noisy labels can significantly enhance feature learning for segmentation tasks. All data, code, and pretrained weights will be made publicly available.
- Abstract(参考訳): 地理空間アプリケーションのためのマルチモーダルフレームワーク内でセマンティックセグメンテーションモデルを事前訓練することにより,大規模雑音ラベル付きデータの可能性を探究する。
クロスモーダル整合性およびノイズ緩和技術により特徴表現を改善するための弱教師付き事前訓練戦略であるクロスモーダルサンプル選択法(CromSS)を提案する。
従来の事前トレーニングアプローチとは異なり、CromSSは、大量のノイズと簡単に得られるラベルを利用して、セマンティックセグメンテーションタスクに有用な機能学習を改善する。
マルチモーダルプレトレーニングアーキテクチャ設計を最適化するための中・後期融合戦略について検討する。
また,ラベルノイズの悪影響を緩和するクロスモーダルサンプル選択モジュールを導入し,各モーダル内の信頼マスクを改良し,サンプリングプロセスを導出するクロスモーダルエンタングル戦略を用いた。
さらに,雑音ラベルに対する頑健性を高めるために,過信に対処する時空間ラベル平滑化手法を提案する。
このデータセットは、GoogleのDynamic World(DW)データセットから事前トレーニング用の大規模ノイズラベルサブセットと、Google DWとOpenStreetMap(OSM)の高品質なラベルを持つ2つの下流サブセットで構成されています。
2つの下流タスクと公開可能なDFC2020データセットの実験結果は、効果的に利用すれば、低コストのノイズラベルがセグメンテーションタスクの機能学習を著しく向上させることができることを示した。
すべてのデータ、コード、事前訓練された重み付けが公開されます。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Unsupervised Few-Shot Continual Learning for Remote Sensing Image Scene Classification [14.758282519523744]
リモートセンシング画像シーン分類における教師なし数ショット連続学習のためのunsupervised flat-wide learning approach (UNISA)
リモートセンシング画像シーンデータセットとハイパースペクトルデータセットを用いた数値解析により,提案手法の利点が確認された。
論文 参考訳(メタデータ) (2024-06-04T03:06:41Z) - VLM-CPL: Consensus Pseudo Labels from Vision-Language Models for Human Annotation-Free Pathological Image Classification [23.08368823707528]
本稿では,VLM(Venture-Language Models)を利用した画像分類法を提案する。
2つのノイズラベルフィルタリング技術と半教師付き学習戦略を統合した,コンセンサス擬似ラベルに基づく新しい手法 VLM-CPL を提案する。
実験の結果,HPHデータセットとLC25Kデータセットの精度は87.1%,95.1%であった。
論文 参考訳(メタデータ) (2024-03-23T13:24:30Z) - Task Specific Pretraining with Noisy Labels for Remote Sensing Image Segmentation [18.598405597933752]
自己監督(Self-supervision)は、人造地理空間アノテーションの正確な量を減らすためのリモートセンシングツールを提供する。
本研究では,モデル事前学習のためのノイズの多いセマンティックセグメンテーションマップを提案する。
2つのデータセットから,ノイズラベルを用いたタスク固有教師付き事前学習の有効性が示唆された。
論文 参考訳(メタデータ) (2024-02-25T18:01:42Z) - Domain Adaptive Synapse Detection with Weak Point Annotations [63.97144211520869]
弱点アノテーションを用いたドメイン適応型シナプス検出のためのフレームワークであるAdaSynを提案する。
I SBI 2023のWASPSYNチャレンジでは、我々の手法が第1位にランクインした。
論文 参考訳(メタデータ) (2023-08-31T05:05:53Z) - Manifold DivideMix: A Semi-Supervised Contrastive Learning Framework for
Severe Label Noise [4.90148689564172]
実世界のデータセットには、データセットのどのクラスにも意味のないノイズの多いラベルサンプルが含まれている。
最先端の手法の多くは、IDラベル付きノイズサンプルを半教師付き学習のためのラベルなしデータとして利用する。
自己指導型トレーニングの利点を生かして,すべてのトレーニングデータからの情報を活用することを提案する。
論文 参考訳(メタデータ) (2023-08-13T23:33:33Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - AutoGeoLabel: Automated Label Generation for Geospatial Machine Learning [69.47585818994959]
リモートセンシングデータのためのラベルの自動生成のためのビッグデータ処理パイプラインを評価する。
我々は,大規模データプラットフォームであるIBM PAIRSを用いて,密集都市部でそのようなラベルを動的に生成する。
論文 参考訳(メタデータ) (2022-01-31T20:02:22Z) - Frequency Spectrum Augmentation Consistency for Domain Adaptive Object
Detection [107.52026281057343]
周波数スペクトル拡張整合(FSAC)フレームワークを4種類の低周波フィルタで構成する。
最初の段階では、オリジナルおよび拡張されたソースデータを全て利用して、オブジェクト検出器を訓練する。
第2段階では、予測一貫性のための自己学習を行うために、擬似ラベル付き拡張現実とターゲットデータを採用する。
論文 参考訳(メタデータ) (2021-12-16T04:07:01Z) - Semi-Supervised Domain Adaptation with Prototypical Alignment and
Consistency Learning [86.6929930921905]
本稿では,いくつかの対象サンプルがラベル付けされていれば,ドメインシフトに対処するのにどの程度役立つか検討する。
ランドマークの可能性を最大限に追求するために、ランドマークから各クラスのターゲットプロトタイプを計算するプロトタイプアライメント(PA)モジュールを組み込んでいます。
具体的には,ラベル付き画像に深刻な摂動を生じさせ,PAを非自明にし,モデル一般化性を促進する。
論文 参考訳(メタデータ) (2021-04-19T08:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。