論文の概要: ChangeViT: Unleashing Plain Vision Transformers for Change Detection
- arxiv url: http://arxiv.org/abs/2406.12847v1
- Date: Tue, 18 Jun 2024 17:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 17:39:34.838037
- Title: ChangeViT: Unleashing Plain Vision Transformers for Change Detection
- Title(参考訳): ChangeViT: 変更検出のためのプレーンビジョン変換器を公開
- Authors: Duowang Zhu, Xiaohu Huang, Haiyan Huang, Zhenfeng Shao, Qimin Cheng,
- Abstract要約: ChangeViTは、大規模な変更のパフォーマンスを高めるために、プレーンなViTバックボーンを採用するフレームワークである。
このフレームワークは3つの一般的な高解像度データセット上で最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 3.582733645632794
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Change detection in remote sensing images is essential for tracking environmental changes on the Earth's surface. Despite the success of vision transformers (ViTs) as backbones in numerous computer vision applications, they remain underutilized in change detection, where convolutional neural networks (CNNs) continue to dominate due to their powerful feature extraction capabilities. In this paper, our study uncovers ViTs' unique advantage in discerning large-scale changes, a capability where CNNs fall short. Capitalizing on this insight, we introduce ChangeViT, a framework that adopts a plain ViT backbone to enhance the performance of large-scale changes. This framework is supplemented by a detail-capture module that generates detailed spatial features and a feature injector that efficiently integrates fine-grained spatial information into high-level semantic learning. The feature integration ensures that ChangeViT excels in both detecting large-scale changes and capturing fine-grained details, providing comprehensive change detection across diverse scales. Without bells and whistles, ChangeViT achieves state-of-the-art performance on three popular high-resolution datasets (i.e., LEVIR-CD, WHU-CD, and CLCD) and one low-resolution dataset (i.e., OSCD), which underscores the unleashed potential of plain ViTs for change detection. Furthermore, thorough quantitative and qualitative analyses validate the efficacy of the introduced modules, solidifying the effectiveness of our approach. The source code is available at https://github.com/zhuduowang/ChangeViT.
- Abstract(参考訳): リモートセンシング画像の変化検出は、地球表面の環境変化を追跡するために不可欠である。
多くのコンピュータビジョンアプリケーションにおけるバックボーンとしての視覚トランスフォーマー(ViT)の成功にもかかわらず、それらは変化検出において未使用のままであり、そこでは畳み込みニューラルネットワーク(CNN)がその強力な特徴抽出能力のために支配され続けている。
本稿では,大規模な変更を識別する上でのViTsの独特な優位性を明らかにする。
この知見に基づいて、大規模な変更のパフォーマンスを高めるために、プレーンなViTバックボーンを採用するフレームワークであるChangeViTを紹介します。
このフレームワークは、詳細な空間特徴を生成するディテールキャプチャモジュールと、きめ細かい空間情報を高レベルのセマンティックラーニングに効率的に統合する特徴インジェクタによって補完される。
機能統合により、ChangeViTは大規模な変更の検出と細かな詳細のキャプチャの両方に優れ、さまざまなスケールにわたる包括的な変更検出を提供する。
ベルとホイッスルなしで、ChangeViTは3つの一般的な高解像度データセット(LEVIR-CD、WHU-CD、CLCD)と1つの低解像度データセット(OSCD)で最先端のパフォーマンスを達成する。
さらに,導入モジュールの有効性を定量的・定性的に検証し,本手法の有効性を検証した。
ソースコードはhttps://github.com/zhuduowang/ChangeViT.comで入手できる。
関連論文リスト
- ChangeBind: A Hybrid Change Encoder for Remote Sensing Change Detection [16.62779899494721]
変化検出(CD)は、異なる時刻スタンプで同じ地理的領域間の意味的変化を検出することを目的とした、リモートセンシング(RS)の基本課題である。
本稿では,バイテンポラルRS画像における意味変化をエンコードする,効果的なSiameseベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-26T17:47:14Z) - Explicit Change Relation Learning for Change Detection in VHR Remote
Sensing Images [12.228675703851733]
変更関係の特徴を明示的にマイニングするためのネットワークアーキテクチャNAMEを提案する。
変更検出の変更特徴は、事前変更画像特徴、後変更画像特徴、変更関係特徴に分けられる。
我々のネットワークは、F1、IoU、OAの点で、変更検出のための既存の先進的なネットワークよりも優れています。
論文 参考訳(メタデータ) (2023-11-14T08:47:38Z) - VcT: Visual change Transformer for Remote Sensing Image Change Detection [16.778418602705287]
本稿では,視覚変化検出問題に対する新しい視覚変化変換器(VcT)モデルを提案する。
トップKの信頼できるトークンは、クラスタリングアルゴリズムを使用してマップからマイニングし、洗練することができる。
複数のベンチマークデータセットに対する大規模な実験により,提案したVcTモデルの有効性が検証された。
論文 参考訳(メタデータ) (2023-10-17T17:25:31Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - EMS-Net: Efficient Multi-Temporal Self-Attention For Hyperspectral
Change Detection [32.23764287942984]
我々は,高スペクトル変化検出のための高効率多時間自己アテンションネットワーク(EMS-Net)を提案している。
EMS-Netは、類似した非変更機能マップの冗長性を削減し、正確なバイナリ変更マップのための効率的なマルチテンポラリ変更情報を計算する。
2つのハイパースペクトル変化検出データセットに実装された実験は、提案手法の優れた性能と妥当性を示す。
論文 参考訳(メタデータ) (2023-03-24T02:11:22Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - DASNet: Dual attentive fully convolutional siamese networks for change
detection of high resolution satellite images [17.839181739760676]
研究の目的は、関心の変化情報を識別し、無関係な変更情報を干渉要因としてフィルタリングすることである。
近年、ディープラーニングの台頭により、変化検出のための新しいツールが提供され、目覚ましい結果が得られた。
我々は,高解像度画像における変化検出のための新しい手法,すなわち,二重注意型完全畳み込みシームズネットワーク(DASNet)を提案する。
論文 参考訳(メタデータ) (2020-03-07T16:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。