論文の概要: VcT: Visual change Transformer for Remote Sensing Image Change Detection
- arxiv url: http://arxiv.org/abs/2310.11417v1
- Date: Tue, 17 Oct 2023 17:25:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 14:50:16.311812
- Title: VcT: Visual change Transformer for Remote Sensing Image Change Detection
- Title(参考訳): vct: リモートセンシング画像変化検出のためのビジュアルチェンジトランス
- Authors: Bo Jiang, Zitian Wang, Xixi Wang, Ziyan Zhang, Lan Chen, Xiao Wang,
Bin Luo
- Abstract要約: 本稿では,視覚変化検出問題に対する新しい視覚変化変換器(VcT)モデルを提案する。
トップKの信頼できるトークンは、クラスタリングアルゴリズムを使用してマップからマイニングし、洗練することができる。
複数のベンチマークデータセットに対する大規模な実験により,提案したVcTモデルの有効性が検証された。
- 参考スコア(独自算出の注目度): 16.778418602705287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing visual change detectors usually adopt CNNs or Transformers for
feature representation learning and focus on learning effective representation
for the changed regions between images. Although good performance can be
obtained by enhancing the features of the change regions, however, these works
are still limited mainly due to the ignorance of mining the unchanged
background context information. It is known that one main challenge for change
detection is how to obtain the consistent representations for two images
involving different variations, such as spatial variation, sunlight intensity,
etc. In this work, we demonstrate that carefully mining the common background
information provides an important cue to learn the consistent representations
for the two images which thus obviously facilitates the visual change detection
problem. Based on this observation, we propose a novel Visual change
Transformer (VcT) model for visual change detection problem. To be specific, a
shared backbone network is first used to extract the feature maps for the given
image pair. Then, each pixel of feature map is regarded as a graph node and the
graph neural network is proposed to model the structured information for coarse
change map prediction. Top-K reliable tokens can be mined from the map and
refined by using the clustering algorithm. Then, these reliable tokens are
enhanced by first utilizing self/cross-attention schemes and then interacting
with original features via an anchor-primary attention learning module.
Finally, the prediction head is proposed to get a more accurate change map.
Extensive experiments on multiple benchmark datasets validated the
effectiveness of our proposed VcT model.
- Abstract(参考訳): 既存の視覚変化検出器は、通常、特徴表現学習にcnnやトランスフォーマーを採用し、画像間の変化領域の効果的な表現の学習に焦点を当てている。
変化領域の特徴を増強することで良好な性能が得られるが、背景の背景情報に変化がないことが主な理由として、これらの作品に制限が課せられている。
変化検出の主な課題の1つは、空間変動、日光強度などの異なる変化を含む2つの画像に対して、一貫性のある表現を得る方法である。
本研究では、2つの画像の一貫性のある表現を学習するために、共通背景情報を慎重にマイニングすることが重要な手がかりであることを示し、視覚的変化検出問題を容易にする。
そこで本研究では,視覚変化検出問題に対する新しい視覚変化トランスフォーマ(vct)モデルを提案する。
具体的には、まず共有バックボーンネットワークを使用して、与えられた画像対の特徴マップを抽出する。
次に、特徴マップの各画素をグラフノードとみなし、粗い変化マップ予測のための構造化情報をモデル化するためにグラフニューラルネットワークを提案する。
top-kの信頼性の高いトークンはマップから掘り出され、クラスタリングアルゴリズムを使って洗練される。
次に、これらの信頼性トークンは、まず自己/クロスアテンションスキームを利用し、次にアンカー・プライマリ・アテンション学習モジュールを介して元の特徴と対話することによって強化される。
最後に、より正確な変更マップを得るために予測ヘッドを提案する。
複数のベンチマークデータセットに対する大規模な実験により,提案したVcTモデルの有効性が検証された。
関連論文リスト
- Enhancing Perception of Key Changes in Remote Sensing Image Change Captioning [49.24306593078429]
KCFI(Key Change Features and Instruction-tuned)によるリモートセンシング画像変換キャプションのための新しいフレームワークを提案する。
KCFIは、バイテンポラルリモートセンシング画像特徴を抽出するViTsエンコーダと、重要な変化領域を識別するキー特徴知覚器と、画素レベルの変化検出デコーダとを含む。
提案手法の有効性を検証するため,LEVIR-CCデータセット上のいくつかの最新の変更キャプション手法との比較を行った。
論文 参考訳(メタデータ) (2024-09-19T09:33:33Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Gramformer: Learning Crowd Counting via Graph-Modulated Transformer [68.26599222077466]
Gramformerはグラフ変調変換器で、それぞれ注意点と入力ノードの特徴を調整してネットワークを強化する。
ノードの集中位置や重要性を発見するために,特徴に基づく符号化を提案する。
提案手法の競争性を検証した4つの挑戦的群集カウントデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-01-08T13:01:54Z) - Explicit Change Relation Learning for Change Detection in VHR Remote
Sensing Images [12.228675703851733]
変更関係の特徴を明示的にマイニングするためのネットワークアーキテクチャNAMEを提案する。
変更検出の変更特徴は、事前変更画像特徴、後変更画像特徴、変更関係特徴に分けられる。
我々のネットワークは、F1、IoU、OAの点で、変更検出のための既存の先進的なネットワークよりも優れています。
論文 参考訳(メタデータ) (2023-11-14T08:47:38Z) - Self-supervised Cross-view Representation Reconstruction for Change
Captioning [113.08380679787247]
変更キャプションは、類似したイメージのペアの違いを記述することを目的としている。
その主な課題は、視点変化によって引き起こされる擬似変化の下で、安定した差分表現を学習する方法である。
自己教師型クロスビュー表現再構成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-28T09:28:50Z) - MapFormer: Boosting Change Detection by Using Pre-change Information [2.436285270638041]
地表面の特徴を記述した既存の地図を両時間画像の変化検出に活用する。
潜在表現の連結による付加情報の簡易な統合は、最先端の変更検出方法よりもはるかに優れていることを示す。
提案手法は,DynamicEarthNet と HRSCD のバイナリ変更 IoU において,絶対 11.7% と 18.4% で既存の変更検出手法より優れている。
論文 参考訳(メタデータ) (2023-03-31T07:39:12Z) - Precise Facial Landmark Detection by Reference Heatmap Transformer [52.417964103227696]
より正確に顔のランドマークを検出するための参照ヒートマップ変換器(RHT)を提案する。
評価実験の結果,提案手法は文献における最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-03-14T12:26:48Z) - IDAN: Image Difference Attention Network for Change Detection [3.5366052026723547]
リモートセンシング画像変化検出のための新しい画像差分注意ネットワーク(IDAN)を提案する。
IDANは、画像の地域的特徴とエッジ的特徴の違いを考慮し、抽出した画像特徴を最適化する。
実験の結果、IDANのF1スコアは、WHUデータセットとLEVIR-CDデータセットのベースラインモデルと比較して1.62%と1.98%改善していることが示された。
論文 参考訳(メタデータ) (2022-08-17T13:46:13Z) - dual unet:a novel siamese network for change detection with cascade
differential fusion [4.651756476458979]
本稿では,変化検出タスク,すなわちDual-UNetのための新しいSiameseニューラルネットワークを提案する。
従来のバイテンポラル画像の符号化とは対照的に,画素の空間的差分関係に着目したエンコーダ差分アテンションモジュールを設計する。
実験により、提案手法は、一般的な季節変化検出データセットにおいて、常に最も高度な手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-08-12T14:24:09Z) - Semantic Change Detection with Asymmetric Siamese Networks [71.28665116793138]
2つの空中画像が与えられた場合、セマンティックチェンジ検出は、土地被覆のバリエーションを特定し、それらの変化タイプをピクセルワイド境界で識別することを目的としている。
この問題は、正確な都市計画や天然資源管理など、多くの地球ビジョンに関連するタスクにおいて不可欠である。
本研究では, 広く異なる構造を持つモジュールから得られた特徴対を用いて意味変化を同定し, 同定するための非対称システマネットワーク(ASN)を提案する。
論文 参考訳(メタデータ) (2020-10-12T13:26:30Z) - From W-Net to CDGAN: Bi-temporal Change Detection via Deep Learning
Techniques [43.58400031452662]
W-Netと呼ばれるエンドツーエンドのデュアルブランチアーキテクチャを提案し、各ブランチは2つのバイテンポラルイメージのうちの1つを入力として取り込む。
また、最近人気になったGAN(Generative Adversarial Network)を応用し、当社のW-Netがジェネレータとして機能している。
ネットワークをトレーニングし,今後の研究を促進するために,Google Earthから画像を収集して大規模なデータセットを構築する。
論文 参考訳(メタデータ) (2020-03-14T09:24:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。