論文の概要: Fully Transformer Network for Change Detection of Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2210.00757v1
- Date: Mon, 3 Oct 2022 08:21:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 14:50:27.297959
- Title: Fully Transformer Network for Change Detection of Remote Sensing Images
- Title(参考訳): リモートセンシング画像の変更検出のためのフルトランスネットワーク
- Authors: Tianyu Yan and Zifu Wan and Pingping Zhang
- Abstract要約: リモートセンシング画像CDのための新しい学習フレームワークであるFully Transformer Network (FTN)を提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの公開CDベンチマーク上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 22.989324947501014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, change detection (CD) of remote sensing images have achieved great
progress with the advances of deep learning. However, current methods generally
deliver incomplete CD regions and irregular CD boundaries due to the limited
representation ability of the extracted visual features. To relieve these
issues, in this work we propose a novel learning framework named Fully
Transformer Network (FTN) for remote sensing image CD, which improves the
feature extraction from a global view and combines multi-level visual features
in a pyramid manner. More specifically, the proposed framework first utilizes
the advantages of Transformers in long-range dependency modeling. It can help
to learn more discriminative global-level features and obtain complete CD
regions. Then, we introduce a pyramid structure to aggregate multi-level visual
features from Transformers for feature enhancement. The pyramid structure
grafted with a Progressive Attention Module (PAM) can improve the feature
representation ability with additional interdependencies through channel
attentions. Finally, to better train the framework, we utilize the
deeply-supervised learning with multiple boundaryaware loss functions.
Extensive experiments demonstrate that our proposed method achieves a new
state-of-the-art performance on four public CD benchmarks. For model
reproduction, the source code is released at https://github.com/AI-Zhpp/FTN.
- Abstract(参考訳): 近年,ディープラーニングの進歩に伴い,リモートセンシング画像の変化検出(cd)が大きな進歩を遂げている。
しかし、現在の方法では、抽出された視覚特徴の限られた表現能力のため、一般に不完全なCD領域と不規則なCD境界が提供される。
これらの問題を解消するために,我々はリモートセンシング画像CDのための新しい学習フレームワークであるFully Transformer Network (FTN)を提案する。
より具体的には、提案フレームワークは、まず、長距離依存性モデリングにおけるTransformerの利点を利用する。
より差別的なグローバルレベルの特徴を学び、完全なCD領域を得るのに役立つ。
そして,特徴強調のためにトランスフォーマーから多層視覚特徴を集約するピラミッド構造を導入する。
プログレッシブ・アテンション・モジュール(pam)でグラフトされたピラミッド構造は、チャネルアテンションを介して追加の相互依存性を伴う特徴表現能力を向上させることができる。
最後に,フレームワークをよりよく訓練するために,複数の境界認識損失関数を用いた深い教師付き学習を利用する。
大規模な実験により,提案手法は4つの公開CDベンチマークにおいて新しい最先端性能を実現することを示した。
モデル再現のために、ソースコードはhttps://github.com/AI-Zhpp/FTNでリリースされる。
関連論文リスト
- EfficientCD: A New Strategy For Change Detection Based With Bi-temporal Layers Exchanged [3.3885253104046993]
本稿では,リモートセンシング画像変化検出のためのEfficientCDという新しいディープラーニングフレームワークを提案する。
このフレームワークは機能抽出のバックボーンネットワークとしてEfficientNetを使用している。
EfficientCDは4つのリモートセンシングデータセットで実験的に検証されている。
論文 参考訳(メタデータ) (2024-07-22T19:11:50Z) - TransY-Net:Learning Fully Transformer Networks for Change Detection of
Remote Sensing Images [64.63004710817239]
リモートセンシング画像CDのためのトランスフォーマーベース学習フレームワークTransY-Netを提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの光学式および2つのSAR画像CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-22T07:42:19Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Effective Image Tampering Localization via Enhanced Transformer and
Co-attention Fusion [5.691973573807887]
本稿では,2分岐拡張型トランスフォーマーエンコーダを用いた画像改ざんネットワーク(EITLNet)を提案する。
RGBとノイズストリームから抽出した特徴は、座標注意に基づく融合モジュールによって効果的に融合される。
論文 参考訳(メタデータ) (2023-09-17T15:43:06Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。