論文の概要: CromSS: Cross-modal pre-training with noisy labels for remote sensing image segmentation
- arxiv url: http://arxiv.org/abs/2405.01217v2
- Date: Mon, 03 Mar 2025 07:38:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 17:04:19.23025
- Title: CromSS: Cross-modal pre-training with noisy labels for remote sensing image segmentation
- Title(参考訳): CromSS:リモートセンシング画像セグメンテーションのためのノイズラベルを用いたクロスモーダル事前学習
- Authors: Chenying Liu, Conrad Albrecht, Yi Wang, Xiao Xiang Zhu,
- Abstract要約: 我々は,意味的セグメンテーションモデルを事前学習することで特徴学習を強化するために,大規模雑音ラベル付きデータの可能性を探る。
従来の事前トレーニングアプローチとは異なり、CromSSは大量のノイズと簡単に得られるラベルを活用して、機能学習を改善している。
- 参考スコア(独自算出の注目度): 18.276988929148143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the potential of large-scale noisily labeled data to enhance feature learning by pretraining semantic segmentation models within a multi-modal framework for geospatial applications. We propose a novel Cross-modal Sample Selection (CromSS) method, a weakly supervised pretraining strategy designed to improve feature representations through cross-modal consistency and noise mitigation techniques. Unlike conventional pretraining approaches, CromSS exploits massive amounts of noisy and easy-to-come-by labels for improved feature learning beneficial to semantic segmentation tasks. We investigate middle and late fusion strategies to optimize the multi-modal pretraining architecture design. We also introduce a cross-modal sample selection module to mitigate the adverse effects of label noise, which employs a cross-modal entangling strategy to refine the estimated confidence masks within each modality to guide the sampling process. Additionally, we introduce a spatial-temporal label smoothing technique to counteract overconfidence for enhanced robustness against noisy labels. To validate our approach, we assembled the multi-modal dataset, NoLDO-S12, which consists of a large-scale noisy label subset from Google's Dynamic World (DW) dataset for pretraining and two downstream subsets with high-quality labels from Google DW and OpenStreetMap (OSM) for transfer learning. Experimental results on two downstream tasks and the publicly available DFC2020 dataset demonstrate that when effectively utilized, the low-cost noisy labels can significantly enhance feature learning for segmentation tasks. All data, code, and pretrained weights will be made publicly available.
- Abstract(参考訳): 地理空間アプリケーションのためのマルチモーダルフレームワーク内でセマンティックセグメンテーションモデルを事前訓練することにより,大規模雑音ラベル付きデータの可能性を探究する。
クロスモーダル整合性およびノイズ緩和技術により特徴表現を改善するための弱教師付き事前訓練戦略であるクロスモーダルサンプル選択法(CromSS)を提案する。
従来の事前トレーニングアプローチとは異なり、CromSSは、大量のノイズと簡単に得られるラベルを利用して、セマンティックセグメンテーションタスクに有用な機能学習を改善する。
マルチモーダルプレトレーニングアーキテクチャ設計を最適化するための中・後期融合戦略について検討する。
また,ラベルノイズの悪影響を緩和するクロスモーダルサンプル選択モジュールを導入し,各モーダル内の信頼マスクを改良し,サンプリングプロセスを導出するクロスモーダルエンタングル戦略を用いた。
さらに,雑音ラベルに対する頑健性を高めるために,過信に対処する時空間ラベル平滑化手法を提案する。
このデータセットは、GoogleのDynamic World(DW)データセットから事前トレーニング用の大規模ノイズラベルサブセットと、Google DWとOpenStreetMap(OSM)の高品質なラベルを持つ2つの下流サブセットで構成されています。
2つの下流タスクと公開可能なDFC2020データセットの実験結果は、効果的に利用すれば、低コストのノイズラベルがセグメンテーションタスクの機能学習を著しく向上させることができることを示した。
すべてのデータ、コード、事前訓練された重み付けが公開されます。
関連論文リスト
- Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - Hide and Seek in Noise Labels: Noise-Robust Collaborative Active Learning with LLM-Powered Assistance [17.359530437698723]
ノイズラベル(LNL)からの学習は、収集されたトレーニングデータが誤ったラベルや破損したラベルを含むことができる多くの実世界のシナリオで発生する課題である。
既存のソリューションのほとんどは、ノイズの多いラベルを特定し、アクティブな学習を採用して、人間の専門家にノイズを問う。
本稿では,大規模な言語モデルと,雑音ラベルから学習するための小さなモデルを組み合わせた,能動的学習に基づく革新的な協調学習フレームワークであるNossalを提案する。
論文 参考訳(メタデータ) (2025-04-03T04:36:39Z) - TMLC-Net: Transferable Meta Label Correction for Noisy Label Learning [2.094022863940315]
本稿では,雑音ラベルを訂正するトランスファー可能なメタラーナーTMLC-Netを提案する。
TMLC-Netは、多様なデータセットに容易に適用可能な汎用ラベル補正戦略を学習する。
TMLC-Netは、ラベルノイズに対する精度とロバスト性の両方の観点から、最先端の手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-02-11T17:33:48Z) - Enhancing Sample Utilization in Noise-Robust Deep Metric Learning With Subgroup-Based Positive-Pair Selection [84.78475642696137]
実世界のデータにノイズラベルが存在することは、ディープラーニングモデルの性能に悪影響を及ぼす。
サブグループに基づく正対選択(SGPS)を用いたノイズロストDMLフレームワークを提案する。
SGPSは、ノイズのあるサンプルに対して信頼性の高い正のペアを構築し、サンプルの利用率を高める。
論文 参考訳(メタデータ) (2025-01-19T14:41:55Z) - Dual-Decoupling Learning and Metric-Adaptive Thresholding for Semi-Supervised Multi-Label Learning [81.83013974171364]
半教師付きマルチラベル学習(SSMLL)は、正確なマルチラベルアノテーションを収集するコストを削減するために、ラベルのないデータを活用する強力なフレームワークである。
半教師付き学習とは異なり、インスタンスに含まれる複数のセマンティクスのため、SSMLLの擬似ラベルとして最も確率の高いラベルを選択することはできない。
本稿では,高品質な擬似ラベルを生成するための二重パースペクティブ手法を提案する。
論文 参考訳(メタデータ) (2024-07-26T09:33:53Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Unsupervised Few-Shot Continual Learning for Remote Sensing Image Scene Classification [14.758282519523744]
リモートセンシング画像シーン分類における教師なし数ショット連続学習のためのunsupervised flat-wide learning approach (UNISA)
リモートセンシング画像シーンデータセットとハイパースペクトルデータセットを用いた数値解析により,提案手法の利点が確認された。
論文 参考訳(メタデータ) (2024-06-04T03:06:41Z) - VLM-CPL: Consensus Pseudo Labels from Vision-Language Models for Human Annotation-Free Pathological Image Classification [23.08368823707528]
本稿では,VLM(Venture-Language Models)を利用した画像分類法を提案する。
2つのノイズラベルフィルタリング技術と半教師付き学習戦略を統合した,コンセンサス擬似ラベルに基づく新しい手法 VLM-CPL を提案する。
実験の結果,HPHデータセットとLC25Kデータセットの精度は87.1%,95.1%であった。
論文 参考訳(メタデータ) (2024-03-23T13:24:30Z) - A Unified Optimal Transport Framework for Cross-Modal Retrieval with Noisy Labels [22.2715520667186]
クロスモーダル検索(CMR)は、異なるモーダル間の相互作用を確立することを目的としている。
本研究は,ロバスト・クロスモーダル検索のための最適輸送(OT)に基づく統一フレームワークであるUTT-RCLを提案する。
広範に使用されている3つのクロスモーダル検索データセットの実験は、我々のOT-RCLが最先端のアプローチを超越していることを示している。
論文 参考訳(メタデータ) (2024-03-20T10:34:40Z) - Task Specific Pretraining with Noisy Labels for Remote Sensing Image Segmentation [18.598405597933752]
自己監督(Self-supervision)は、人造地理空間アノテーションの正確な量を減らすためのリモートセンシングツールを提供する。
本研究では,モデル事前学習のためのノイズの多いセマンティックセグメンテーションマップを提案する。
2つのデータセットから,ノイズラベルを用いたタスク固有教師付き事前学習の有効性が示唆された。
論文 参考訳(メタデータ) (2024-02-25T18:01:42Z) - Federated Learning with Instance-Dependent Noisy Label [6.093214616626228]
FedBeatはIDN遷移行列(IDNTM)を用いたグローバルな統計的一貫した分類器の構築を目指している
CIFAR-10 と SVHN で行った実験により,提案手法が最先端手法を著しく上回っていることを確認した。
論文 参考訳(メタデータ) (2023-12-16T05:08:02Z) - Domain Adaptive Synapse Detection with Weak Point Annotations [63.97144211520869]
弱点アノテーションを用いたドメイン適応型シナプス検出のためのフレームワークであるAdaSynを提案する。
I SBI 2023のWASPSYNチャレンジでは、我々の手法が第1位にランクインした。
論文 参考訳(メタデータ) (2023-08-31T05:05:53Z) - Manifold DivideMix: A Semi-Supervised Contrastive Learning Framework for
Severe Label Noise [4.90148689564172]
実世界のデータセットには、データセットのどのクラスにも意味のないノイズの多いラベルサンプルが含まれている。
最先端の手法の多くは、IDラベル付きノイズサンプルを半教師付き学習のためのラベルなしデータとして利用する。
自己指導型トレーニングの利点を生かして,すべてのトレーニングデータからの情報を活用することを提案する。
論文 参考訳(メタデータ) (2023-08-13T23:33:33Z) - Multi-Granularity Denoising and Bidirectional Alignment for Weakly
Supervised Semantic Segmentation [75.32213865436442]
本稿では,雑音ラベルと多クラス一般化問題を緩和するために,MDBAモデルを提案する。
MDBAモデルはPASCAL VOC 2012データセットの検証とテストセットにおいて69.5%と70.2%のmIoUに達することができる。
論文 参考訳(メタデータ) (2023-05-09T03:33:43Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - AutoGeoLabel: Automated Label Generation for Geospatial Machine Learning [69.47585818994959]
リモートセンシングデータのためのラベルの自動生成のためのビッグデータ処理パイプラインを評価する。
我々は,大規模データプラットフォームであるIBM PAIRSを用いて,密集都市部でそのようなラベルを動的に生成する。
論文 参考訳(メタデータ) (2022-01-31T20:02:22Z) - Frequency Spectrum Augmentation Consistency for Domain Adaptive Object
Detection [107.52026281057343]
周波数スペクトル拡張整合(FSAC)フレームワークを4種類の低周波フィルタで構成する。
最初の段階では、オリジナルおよび拡張されたソースデータを全て利用して、オブジェクト検出器を訓練する。
第2段階では、予測一貫性のための自己学習を行うために、擬似ラベル付き拡張現実とターゲットデータを採用する。
論文 参考訳(メタデータ) (2021-12-16T04:07:01Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - Semi-Supervised Domain Adaptation with Prototypical Alignment and
Consistency Learning [86.6929930921905]
本稿では,いくつかの対象サンプルがラベル付けされていれば,ドメインシフトに対処するのにどの程度役立つか検討する。
ランドマークの可能性を最大限に追求するために、ランドマークから各クラスのターゲットプロトタイプを計算するプロトタイプアライメント(PA)モジュールを組み込んでいます。
具体的には,ラベル付き画像に深刻な摂動を生じさせ,PAを非自明にし,モデル一般化性を促進する。
論文 参考訳(メタデータ) (2021-04-19T08:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。