Fugu-MT 論文翻訳(概要): Lightweight Structure-aware Transformer Network for VHR Remote Sensing Image Change Detection

論文の概要: Lightweight Structure-aware Transformer Network for VHR Remote Sensing Image Change Detection

arxiv url: http://arxiv.org/abs/2306.01988v1
Date: Sat, 3 Jun 2023 03:21:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-06 20:52:40.759064
Title: Lightweight Structure-aware Transformer Network for VHR Remote Sensing Image Change Detection
Title（参考訳）: VHRリモートセンシング画像変化検出のための軽量構造対応トランスネットワーク
Authors: Tao Lei, Yetong Xu, Hailong Ning, Zhiyong Lv, Chongdan Min, Yaochu Jin and Asoke K. Nandi
Abstract要約: RS画像CDのための軽量構造対応トランス (LSAT) ネットワークを提案する。まず、線形複雑度を有するクロス次元インタラクティブ自己注意(CISA)モジュールは、視覚変換器におけるバニラ自己注意を置き換えるように設計されている。第二に、SAEM(Structure-Aware Enhancement Module)は、差分特徴とエッジ詳細情報を強化するために設計されている。
参考スコア（独自算出の注目度）: 15.391216316828354
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Popular Transformer networks have been successfully applied to remote sensing (RS) image change detection (CD) identifications and achieve better results than most convolutional neural networks (CNNs), but they still suffer from two main problems. First, the computational complexity of the Transformer grows quadratically with the increase of image spatial resolution, which is unfavorable to very high-resolution (VHR) RS images. Second, these popular Transformer networks tend to ignore the importance of fine-grained features, which results in poor edge integrity and internal tightness for largely changed objects and leads to the loss of small changed objects. To address the above issues, this Letter proposes a Lightweight Structure-aware Transformer (LSAT) network for RS image CD. The proposed LSAT has two advantages. First, a Cross-dimension Interactive Self-attention (CISA) module with linear complexity is designed to replace the vanilla self-attention in visual Transformer, which effectively reduces the computational complexity while improving the feature representation ability of the proposed LSAT. Second, a Structure-aware Enhancement Module (SAEM) is designed to enhance difference features and edge detail information, which can achieve double enhancement by difference refinement and detail aggregation so as to obtain fine-grained features of bi-temporal RS images. Experimental results show that the proposed LSAT achieves significant improvement in detection accuracy and offers a better tradeoff between accuracy and computational costs than most state-of-the-art CD methods for VHR RS images.
Abstract（参考訳）: 一般的なTransformer Networkは、リモートセンシング(RS)画像変化検出(CD)識別に適用され、ほとんどの畳み込みニューラルネットワーク(CNN)よりも優れた結果が得られるが、それでも2つの大きな問題に悩まされている。第一に、トランスフォーマーの計算複雑性は画像空間分解能の増大とともに2次的に増大し、超高分解能(VHR)RS画像には好ましくない。第二に、これらの人気のあるトランスフォーマーネットワークは、細粒度の特徴の重要性を無視する傾向があり、これにより、大きく変化するオブジェクトに対して、エッジの整合性や内部の厳密性が低下し、小さなオブジェクトが失われる。上記の問題に対処するため、このレターはRS画像CDのための軽量構造対応トランスフォーマー(LSAT)ネットワークを提案する。 LSATには2つの利点がある。まず,線形複雑度を有するクロス次元対話型自己アテンション(CISA)モジュールを視覚変換器のバニラ自己アテンションに置き換えることにより,LSATの特徴表現能力を向上しつつ,計算複雑性を効果的に低減する。第2に、差分特徴とエッジ詳細情報を強化するためにSAEM(Structure-Aware Enhancement Module)を設計し、差分精細化と細部集約による倍増を実現し、両時間RS画像のきめ細かい特徴を得る。実験結果から,提案したLSATは検出精度を大幅に向上し,VHR RS画像の最先端CD法よりも精度と計算コストのトレードオフが良好であることがわかった。

関連論文リスト

EHCTNet: Enhanced Hybrid of CNN and Transformer Network for Remote Sensing Image Change Detection [14.31739715354338]
既存のフレームワークは、偽陽性のコストを削減するために精度基準を改善するのに苦労しているが、それでも関心の変化に焦点を合わせるのに制限がある。本研究は,特徴学習能力の向上と特徴情報の周波数成分の統合により,これらの課題に対処する。本稿では,CNN と Transformer Network (EHCTNet) のハイブリッドを改良し,関心の変化情報を効果的にマイニングする手法を提案する。
論文参考訳（メタデータ） (2025-01-02T12:55:36Z)
Task-Aware Dynamic Transformer for Efficient Arbitrary-Scale Image Super-Resolution [8.78015409192613]
Arbitrary-scale Super- resolution (ASSR) は、任意の拡大スケールで画像超解像の1つのモデルを学ぶことを目的としている。既存のASSRネットワークは、通常、既製のスケール非依存の特徴抽出器と任意のスケールアップサンプラーから構成される。本稿では,効率的な画像ASSRのための入力適応型特徴抽出器として,タスク対応動的変換器(TADT)を提案する。
論文参考訳（メタデータ） (2024-08-16T13:35:52Z)
Adaptive Step-size Perception Unfolding Network with Non-local Hybrid Attention for Hyperspectral Image Reconstruction [0.39134031118910273]
FISTAアルゴリズムに基づく深層展開ネットワークであるASPUNを提案する。さらに,非局所的ハイブリッドアテンショントランス (NHAT) モジュールを設計し,コンバータの受容場特性をフル活用する。実験の結果, ASPUNは既存のSOTAアルゴリズムよりも優れ, 最高の性能が得られることがわかった。
論文参考訳（メタデータ） (2024-07-04T16:09:52Z)
Relating CNN-Transformer Fusion Network for Change Detection [23.025190360146635]
RCTNetは、空間的特徴と時間的特徴の両方を利用する早期融合バックボーンを導入した。実験では、従来のRS画像CD法よりもRCTNetの方が明らかに優れていることを示した。
論文参考訳（メタデータ） (2024-07-03T14:58:40Z)
Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文参考訳（メタデータ） (2024-05-23T09:13:36Z)
SRTransGAN: Image Super-Resolution using Transformer based Generative Adversarial Network [16.243363392717434]
トランスをベースとしたエンコーダデコーダネットワークを2倍画像と4倍画像を生成するジェネレータとして提案する。提案したSRTransGANは、PSNRとSSIMのスコアの平均で、既存の手法よりも4.38%優れていた。
論文参考訳（メタデータ） (2023-12-04T16:22:39Z)
PTSR: Patch Translator for Image Super-Resolution [16.243363392717434]
画像超解像(PTSR)のためのパッチトランスレータを提案し,この問題に対処する。提案するPTSRは、畳み込み動作のないトランスフォーマーベースGANネットワークである。マルチヘッドアテンションを利用した改良パッチを再生するための新しいパッチトランスレータモジュールを提案する。
論文参考訳（メタデータ） (2023-10-20T01:45:00Z)
Contextual Learning in Fourier Complex Field for VHR Remote Sensing Images [64.84260544255477]
変圧器を用いたモデルでは、一般解像度(224x224ピクセル)の自然画像から高次文脈関係を学習する優れた可能性を示したそこで本研究では,高次文脈情報のモデル化を行う複雑な自己意識(CSA)機構を提案する。 CSAブロックの様々な層を積み重ねることで、VHR空中画像からグローバルな文脈情報を学習するFourier Complex Transformer(FCT)モデルを提案する。
論文参考訳（メタデータ） (2022-10-28T08:13:33Z)
Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。 VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文参考訳（メタデータ） (2022-03-20T02:59:51Z)
Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文参考訳（メタデータ） (2022-03-15T06:52:25Z)
HRFormer: High-Resolution Transformer for Dense Prediction [99.6060997466614]
本稿では高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRFormer)を提案する。我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。人間のポーズ推定とセマンティックセグメンテーションにおける高分解能トランスフォーマの有効性を示す。
論文参考訳（メタデータ） (2021-10-18T15:37:58Z)
Robust Reference-based Super-Resolution via C2-Matching [77.51610726936657]
超解像(Ref-SR)は、最近、高分解能(HR)参照画像を導入して、低分解能(LR)入力画像を強化するための有望なパラダイムとして登場した。既存のRef-SR法は主に暗黙の対応に頼り、参照画像からHRテクスチャを借用し、入力画像の情報損失を補う。本稿では,C2-Matchingを提案する。
論文参考訳（メタデータ） (2021-06-03T16:40:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。