論文の概要: CDXFormer: Boosting Remote Sensing Change Detection with Extended Long Short-Term Memory
- arxiv url: http://arxiv.org/abs/2411.07863v2
- Date: Sat, 21 Dec 2024 03:10:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:52:25.219107
- Title: CDXFormer: Boosting Remote Sensing Change Detection with Extended Long Short-Term Memory
- Title(参考訳): CDXFormer:長期記憶の拡張によるリモートセンシング変更検出の高速化
- Authors: Zhenkai Wu, Xiaowen Ma, Rongrong Lian, Kai Zheng, Wei Zhang,
- Abstract要約: 本稿では,強力なXLSTMベースの機能拡張層であるコアコンポーネントを備えたCDXFormerを提案する。
我々は,意味的精度の高い深層機能用にカスタマイズされたクロステンポラルグローバルパーセプトロンを組み込んだ,スケール特異的な特徴エンハンサー層を導入する。
また,グローバルな変化表現と空間応答を段階的に相互作用するクロススケール・インタラクティブ・フュージョンモジュールを提案する。
- 参考スコア(独自算出の注目度): 7.926250735066206
- License:
- Abstract: In complex scenes and varied conditions, effectively integrating spatial-temporal context is crucial for accurately identifying changes. However, current RS-CD methods lack a balanced consideration of performance and efficiency. CNNs lack global context, Transformers are computationally expensive, and Mambas face CUDA dependence and local correlation loss. In this paper, we propose CDXFormer, with a core component that is a powerful XLSTM-based feature enhancement layer, integrating the advantages of linear computational complexity, global context perception, and strong interpret-ability. Specifically, we introduce a scale-specific Feature Enhancer layer, incorporating a Cross-Temporal Global Perceptron customized for semantic-accurate deep features, and a Cross-Temporal Spatial Refiner customized for detail-rich shallow features. Additionally, we propose a Cross-Scale Interactive Fusion module to progressively interact global change representations with spatial responses. Extensive experimental results demonstrate that CDXFormer achieves state-of-the-art performance across three benchmark datasets, offering a compelling balance between efficiency and accuracy. Code is available at https://github.com/xwmaxwma/rschange.
- Abstract(参考訳): 複雑な場面や様々な状況において、空間的文脈を効果的に統合することは、変化を正確に識別するために重要である。
しかし、現在のRS-CD法は性能と効率のバランスが取れていない。
CNNはグローバルコンテキストを欠き、トランスフォーマーは計算コストが高く、MambasはCUDA依存と局所相関損失に直面している。
本稿では,線形計算複雑性,大域的文脈認識,強い解釈能力の利点を融合した,強力なXLSTMベースの機能拡張層であるコアコンポーネントを備えたCDXFormerを提案する。
具体的には、意味的精度の高い深い特徴にカスタマイズされたクロステンポラル・グローバル・パーセプトロンと、詳細に富んだ浅い特徴にカスタマイズされたクロステンポラル・スペース・リファイナを導入する。
さらに,グローバルな変化表現と空間応答を段階的に相互作用するクロススケール・インタラクティブ・フュージョンモジュールを提案する。
大規模な実験結果によると、CDXFormerは3つのベンチマークデータセットで最先端のパフォーマンスを実現し、効率と精度のバランスを保っている。
コードはhttps://github.com/xwmaxwma/rschange.comから入手できる。
関連論文リスト
- ContextFormer: Redefining Efficiency in Semantic Segmentation [46.06496660333768]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Relating CNN-Transformer Fusion Network for Change Detection [23.025190360146635]
RCTNetは、空間的特徴と時間的特徴の両方を利用する早期融合バックボーンを導入した。
実験では、従来のRS画像CD法よりもRCTNetの方が明らかに優れていることを示した。
論文 参考訳(メタデータ) (2024-07-03T14:58:40Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - WCCNet: Wavelet-integrated CNN with Crossmodal Rearranging Fusion for
Fast Multispectral Pedestrian Detection [16.43119521684829]
我々は、異なるスペクトルのリッチな特徴をより少ない計算量で差分抽出できる WCCNet という新しいフレームワークを提案する。
よく抽出された特徴に基づき、我々はクロスモーダル再配置核融合モジュール(CMRF)を精巧に設計する。
我々はKAISTおよびFLIRベンチマークの総合評価を行い、WCCNetは計算効率と競争精度で最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-08-02T09:35:21Z) - Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution [13.894645293832044]
変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
論文 参考訳(メタデータ) (2023-07-06T13:19:06Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。