論文の概要: S2C: Learning Noise-Resistant Differences for Unsupervised Change Detection in Multimodal Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2502.12604v1
- Date: Tue, 18 Feb 2025 07:34:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:07:03.650847
- Title: S2C: Learning Noise-Resistant Differences for Unsupervised Change Detection in Multimodal Remote Sensing Images
- Title(参考訳): S2C:マルチモーダルリモートセンシング画像における教師なし変化検出のためのノイズ抵抗差の学習
- Authors: Lei Ding, Xibing Zuo, Danfeng Hong, Haitao Guo, Jun Lu, Zhihui Gong, Lorenzo Bruzzone,
- Abstract要約: マルチモーダルリモートセンシング(RS)画像における非時間変化検出(UCD)は難しい課題である。
近年のVisual Foundation Models(VFM)とContrastive Learning(CL)方法論の進歩に触発されて,表現中の暗黙的な知識を変化に翻訳するCL方法論の開発を目指す。
- 参考スコア(独自算出の注目度): 24.75086641416994
- License:
- Abstract: Unsupervised Change Detection (UCD) in multimodal Remote Sensing (RS) images remains a difficult challenge due to the inherent spatio-temporal complexity within data, and the heterogeneity arising from different imaging sensors. Inspired by recent advancements in Visual Foundation Models (VFMs) and Contrastive Learning (CL) methodologies, this research aims to develop CL methodologies to translate implicit knowledge in VFM into change representations, thus eliminating the need for explicit supervision. To this end, we introduce a Semantic-to-Change (S2C) learning framework for UCD in both homogeneous and multimodal RS images. Differently from existing CL methodologies that typically focus on learning multi-temporal similarities, we introduce a novel triplet learning strategy that explicitly models temporal differences, which are crucial to the CD task. Furthermore, random spatial and spectral perturbations are introduced during the training to enhance robustness to temporal noise. In addition, a grid sparsity regularization is defined to suppress insignificant changes, and an IoU-matching algorithm is developed to refine the CD results. Experiments on four benchmark CD datasets demonstrate that the proposed S2C learning framework achieves significant improvements in accuracy, surpassing current state-of-the-art by over 31\%, 9\%, 23\%, and 15\%, respectively. It also demonstrates robustness and sample efficiency, suitable for training and adaptation of various Visual Foundation Models (VFMs) or backbone neural networks. The relevant code will be available at: github.com/DingLei14/S2C.
- Abstract(参考訳): マルチモーダルリモートセンシング(RS)画像における教師なし変化検出(UCD)は、データ内の時空間的複雑さと、異なる画像センサから生じる異質性のため、依然として難しい課題である。
近年のVisual Foundation Models(VFM)とContrastive Learning(CL)方法論の進歩に触発されて,VFMにおける暗黙的な知識を変化表現に変換するCL方法論の開発を目標とし,明示的な監督の必要性を排除した。
この目的のために,同種画像とマルチモーダル画像の両方において,UCDのためのセマンティック・ト・チェンジ(S2C)学習フレームワークを導入する。
複数の時間的類似点の学習に重点を置いている既存のCL方法論とは違って,CDタスクに不可欠な時間差を明示的にモデル化する新しい三重項学習戦略を導入する。
さらに、時間雑音に対するロバスト性を高めるために、トレーニング中にランダムな空間摂動とスペクトル摂動を導入する。
さらに、重要な変化を抑制するために格子幅正規化を定義し、CD結果を洗練するためにIoUマッチングアルゴリズムを開発した。
4つのベンチマークCDデータセットを用いた実験により,提案したS2C学習フレームワークは,それぞれ31\%,9\%,23\%,15\%以上の精度向上を実現している。
また、様々なVisual Foundation Model(VFM)やバックボーンニューラルネットワークのトレーニングと適応に適した堅牢性とサンプル効率を示す。
関連するコードは、github.com/DingLei14/S2Cで入手できる。
関連論文リスト
- Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention [59.19580789952102]
本稿では,RS画像セマンティックセグメンテーションタスクのための,新しい半教師付きマルチスケール不確かさとクロスTeacher-Student Attention(MUCA)モデルを提案する。
MUCAは、マルチスケールの不確実性整合正則化を導入することにより、ネットワークの異なる層における特徴写像間の整合性を制限する。
MUCAは学生ネットワークの誘導にクロス教師・学生の注意機構を使用し、学生ネットワークにより差別的な特徴表現を構築するよう誘導する。
論文 参考訳(メタデータ) (2025-01-18T11:57:20Z) - Cross-Domain Separable Translation Network for Multimodal Image Change Detection [11.25422609271201]
マルチモーダル変化検出(MCD)はリモートセンシングコミュニティにおいて特に重要である。
本稿では,MDDの課題,特に異なるセンサの画像を比較することの難しさに対処することに焦点を当てる。
これらの制限を克服するために、新しい教師なしクロスドメイン分離型翻訳ネットワーク(CSTN)が提案されている。
論文 参考訳(メタデータ) (2024-07-23T03:56:02Z) - C2F-SemiCD: A Coarse-to-Fine Semi-Supervised Change Detection Method Based on Consistency Regularization in High-Resolution Remote Sensing Images [6.191219008656562]
高精度特徴抽出モデルは変化検出(CD)に不可欠である
整合正則化(C2F-SemiCD)に基づく粗大な半教師付きCD法を提案する。
C2F-SemiCD法の有効性と有効性を検討した。
論文 参考訳(メタデータ) (2024-04-22T02:34:50Z) - A Dual Attentive Generative Adversarial Network for Remote Sensing Image
Change Detection [6.906936669510404]
本稿では,高分解能なリモートセンシング画像変化検出タスクを実現するために,二重注意生成対向ネットワークを提案する。
DAGANフレームワークは、85.01%がIoU、91.48%がF1スコアであり、LEVIRデータセットの先進的な手法よりもパフォーマンスが良い。
論文 参考訳(メタデータ) (2023-10-03T08:26:27Z) - Continual Vision-Language Representation Learning with Off-Diagonal
Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。
本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文 参考訳(メタデータ) (2023-05-11T08:04:46Z) - Deep Metric Learning for Unsupervised Remote Sensing Change Detection [60.89777029184023]
リモートセンシング変化検出(RS-CD)は、マルチテンポラルリモートセンシング画像(MT-RSI)から関連する変化を検出することを目的とする。
既存のRS-CD法の性能は、大規模な注釈付きデータセットのトレーニングによるものである。
本稿では,これらの問題に対処可能なディープメトリック学習に基づく教師なしCD手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:52:45Z) - Joint Spatio-Temporal Modeling for the Semantic Change Detection in
Remote Sensing Images [22.72105435238235]
両時間RSI間の「から」意味遷移を明示的にモデル化するための意味変化(SCanFormer)を提案する。
次に,SCDタスクに忠実な Transformer 時間制約を活用する意味学習手法を導入し,意味変化の学習を指導する。
結果として得られたネットワーク(SCanNet)は、決定的意味変化の検出と、得られた両時間的結果のセマンティック一貫性の両方において、ベースライン法より優れている。
論文 参考訳(メタデータ) (2022-12-10T08:49:19Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Robust Unsupervised Small Area Change Detection from SAR Imagery Using
Deep Learning [23.203687716051697]
合成開口レーダ(SAR)画像から小さな領域変化検出のための頑健な教師なし手法を提案する。
差分画像(DI)を生成するマルチスケールスーパーピクセル再構成法を開発した。
二段階中心拘束型ファジィc平均クラスタリングアルゴリズムを提案し、DIの画素を変化・変化・中間クラスに分割する。
論文 参考訳(メタデータ) (2020-11-22T12:50:08Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。