論文の概要: Pixel-Level Change Detection Pseudo-Label Learning for Remote Sensing Change Captioning
- arxiv url: http://arxiv.org/abs/2312.15311v2
- Date: Tue, 21 May 2024 13:28:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 18:51:19.401908
- Title: Pixel-Level Change Detection Pseudo-Label Learning for Remote Sensing Change Captioning
- Title(参考訳): リモートセンシング変更キャプションのための画素レベル変化検出擬似ラベル学習
- Authors: Chenyang Liu, Keyan Chen, Zipeng Qi, Haotian Zhang, Zhengxia Zou, Zhenwei Shi,
- Abstract要約: リモートセンシング画像変化キャプション(RSICC)の手法は、単純なシーンではうまく機能するが、複雑なシーンでは性能が劣る。
画素レベルのCDは言語による画像の違いを説明する上で重要であると我々は信じている。
提案手法は最先端の性能を達成し,学習用画素レベルのCD擬似ラベルがキャプションの変更に大きく貢献することを示す。
- 参考スコア(独自算出の注目度): 28.3763053922823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The existing methods for Remote Sensing Image Change Captioning (RSICC) perform well in simple scenes but exhibit poorer performance in complex scenes. This limitation is primarily attributed to the model's constrained visual ability to distinguish and locate changes. Acknowledging the inherent correlation between change detection (CD) and RSICC tasks, we believe pixel-level CD is significant for describing the differences between images through language. Regrettably, the current RSICC dataset lacks readily available pixel-level CD labels. To address this deficiency, we leverage a model trained on existing CD datasets to derive CD pseudo-labels. We propose an innovative network with an auxiliary CD branch, supervised by pseudo-labels. Furthermore, a semantic fusion augment (SFA) module is proposed to fuse the feature information extracted by the CD branch, thereby facilitating the nuanced description of changes. Experiments demonstrate that our method achieves state-of-the-art performance and validate that learning pixel-level CD pseudo-labels significantly contributes to change captioning. Our code will be available at: https://github.com/Chen-Yang-Liu/Pix4Cap
- Abstract(参考訳): 既存のリモートセンシング画像変化キャプション(RSICC)は、単純なシーンではうまく機能するが、複雑なシーンでは性能が劣る。
この制限は主に、モデルが変化を識別し、発見する制限された視覚能力に起因している。
変化検出(CD)タスクとRSICCタスクの関連性を認め,言語による画像の違いを説明する上で,ピクセルレベルのCDが重要であると信じている。
現在のRSICCデータセットには、容易に利用可能なピクセルレベルのCDラベルがない。
この欠陥に対処するために、既存のCDデータセットでトレーニングされたモデルを活用し、CD擬似ラベルを導出する。
擬似ラベルで制御された補助CD分岐を用いた革新的なネットワークを提案する。
さらに、CDブランチによって抽出された特徴情報を融合するために、意味融合拡張(SFA)モジュールを提案する。
実験により,本手法が最先端の性能を達成し,学習用画素レベルのCD擬似ラベルがキャプションの変更に大きく寄与することが確認された。
私たちのコードは、https://github.com/Chen-Yang-Liu/Pix4Capで利用可能になります。
関連論文リスト
- Enhancing Perception of Key Changes in Remote Sensing Image Change Captioning [49.24306593078429]
KCFI(Key Change Features and Instruction-tuned)によるリモートセンシング画像変換キャプションのための新しいフレームワークを提案する。
KCFIは、バイテンポラルリモートセンシング画像特徴を抽出するViTsエンコーダと、重要な変化領域を識別するキー特徴知覚器と、画素レベルの変化検出デコーダとを含む。
提案手法の有効性を検証するため,LEVIR-CCデータセット上のいくつかの最新の変更キャプション手法との比較を行った。
論文 参考訳(メタデータ) (2024-09-19T09:33:33Z) - Semantic-CC: Boosting Remote Sensing Image Change Captioning via Foundational Knowledge and Semantic Guidance [19.663899648983417]
本稿では,基礎知識と意味指導に基づく新しい変更キャプション(CC)手法を提案する。
提案手法を LEVIR-CC および LEVIR-CD データセット上で検証する。
論文 参考訳(メタデータ) (2024-07-19T05:07:41Z) - MaskCD: A Remote Sensing Change Detection Network Based on Mask Classification [29.15203530375882]
深層学習を用いたリモートセンシング(RS)画像からの変化(CD)を文献的に広く研究している。
入力画像対から分類マスクを適応的に生成し,変化領域を検出するMaskCDを提案する。
ピクセルワイズ表現を学習可能なマスク提案に復号することで、望まれる変更対象を再構築する。
論文 参考訳(メタデータ) (2024-04-18T11:05:15Z) - TransY-Net:Learning Fully Transformer Networks for Change Detection of
Remote Sensing Images [64.63004710817239]
リモートセンシング画像CDのためのトランスフォーマーベース学習フレームワークTransY-Netを提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの光学式および2つのSAR画像CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-22T07:42:19Z) - Changes-Aware Transformer: Learning Generalized Changes Representation [56.917000244470174]
差分特徴の精細化のための新しい変化認識変換器(CAT)を提案する。
様々な変化の一般化表現は、差分特徴空間において容易に学習される。
精細化後、差分特徴空間における変化画素同士が近接し、変化検出を容易にする。
論文 参考訳(メタデータ) (2023-09-24T12:21:57Z) - Exploring Effective Priors and Efficient Models for Weakly-Supervised Change Detection [9.229278131265124]
弱教師付き変化検出(WSCD)は、画像レベルのアノテーションだけでピクセルレベルの変化を検出することを目的としている。
Dilated Prior (DP) デコーダと Label Gated (LG) 制約の2つのコンポーネントを提案する。
提案したTransWCDとTransWCD-DLは,WHU-CDデータセットの最先端手法に比べて,有意な+6.33%,+9.55%のF1スコア向上を実現している。
論文 参考訳(メタデータ) (2023-07-20T13:16:10Z) - Distilling Self-Supervised Vision Transformers for Weakly-Supervised
Few-Shot Classification & Segmentation [58.03255076119459]
視覚変換器(ViT)を利用した弱教師付き小ショット画像分類とセグメンテーションの課題に対処する。
提案手法は,自己監督型ViTからトークン表現を抽出し,その相関関係を利用して分類とセグメンテーションの予測を行う。
Pascal-5iとCOCO-20iの実験は、様々な監視設定において大きなパフォーマンス向上を示した。
論文 参考訳(メタデータ) (2023-07-07T06:16:43Z) - Revisiting Consistency Regularization for Semi-supervised Change
Detection in Remote Sensing Images [60.89777029184023]
教師付きクロスエントロピー(CE)損失に加えて、教師なしCD損失を定式化する半教師付きCDモデルを提案する。
2つの公開CDデータセットを用いて実験を行った結果,提案手法は教師付きCDの性能に近づきやすいことがわかった。
論文 参考訳(メタデータ) (2022-04-18T17:59:01Z) - A Weakly Supervised Convolutional Network for Change Segmentation and
Classification [91.3755431537592]
W-CDNetは、画像レベルのセマンティックラベルでトレーニングできる、弱い教師付き変更検出ネットワークである。
W-CDNetは、2つの異なるタイプのデータセットでトレーニングすることができる。
論文 参考訳(メタデータ) (2020-11-06T20:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。