論文の概要: Convolution and Attention Mixer for Synthetic Aperture Radar Image
Change Detection
- arxiv url: http://arxiv.org/abs/2309.12010v1
- Date: Thu, 21 Sep 2023 12:28:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 15:29:25.368978
- Title: Convolution and Attention Mixer for Synthetic Aperture Radar Image
Change Detection
- Title(参考訳): 合成開口レーダ画像変化検出のための畳み込み・アテンションミキサー
- Authors: Haopeng Zhang, Zijing Lin, Feng Gao, Junyu Dong, Qian Du, Heng-Chao Li
- Abstract要約: 合成開口レーダ(SAR)画像変化検出は重要な課題であり,リモートセンシングコミュニティで注目されている。
既存のSAR変化検出法は主に畳み込みニューラルネットワーク(CNN)に基づいている
グローバルアテンションを取り入れたコンボリューション・アテンション・ミキサー(CAMixer)を提案する。
- 参考スコア(独自算出の注目度): 41.38587746899477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic aperture radar (SAR) image change detection is a critical task and
has received increasing attentions in the remote sensing community. However,
existing SAR change detection methods are mainly based on convolutional neural
networks (CNNs), with limited consideration of global attention mechanism. In
this letter, we explore Transformer-like architecture for SAR change detection
to incorporate global attention. To this end, we propose a convolution and
attention mixer (CAMixer). First, to compensate the inductive bias for
Transformer, we combine self-attention with shift convolution in a parallel
way. The parallel design effectively captures the global semantic information
via the self-attention and performs local feature extraction through shift
convolution simultaneously. Second, we adopt a gating mechanism in the
feed-forward network to enhance the non-linear feature transformation. The
gating mechanism is formulated as the element-wise multiplication of two
parallel linear layers. Important features can be highlighted, leading to
high-quality representations against speckle noise. Extensive experiments
conducted on three SAR datasets verify the superior performance of the proposed
CAMixer. The source codes will be publicly available at
https://github.com/summitgao/CAMixer .
- Abstract(参考訳): 合成開口レーダ(SAR)画像変化検出は重要な課題であり,リモートセンシングコミュニティで注目されている。
しかし、既存のSAR変化検出方法は、主に畳み込みニューラルネットワーク(CNN)に基づいており、グローバルアテンション機構を限定的に考慮している。
本稿では,SAR変化検出のためのTransformerライクなアーキテクチャを,グローバルな注目を集めるために検討する。
この目的のために,コンボリューション・アンド・アテンション・ミキサー (CAMixer) を提案する。
まず, 変圧器のインダクティブバイアスを補償するために, 自己拘束とシフト畳み込みを並列に組み合わせる。
並列設計は、自己アテンションを介してグローバルセマンティクス情報を効果的に捕捉し、シフト畳み込みによる局所特徴抽出を同時に行う。
第2に, フィードフォワードネットワークにおけるゲーティング機構を採用し, 非線形特徴変換の促進を図る。
ゲーティング機構は、2つの平行線型層の素子ワイド乗算として定式化される。
重要な特徴が強調され、スペックルノイズに対する高品質な表現につながる。
3つのsarデータセットで広範な実験を行い、提案するcamixerの性能を検証した。
ソースコードはhttps://github.com/summitgao/CAMixerで公開されている。
関連論文リスト
- SCTransNet: Spatial-channel Cross Transformer Network for Infrared Small
Target Detection [49.40391453094225]
赤外線小ターゲット検出(IRSTD)は近年,U字型ニューラルモデルから大きな恩恵を受けている。
既存のテクニックは、ターゲットが背景と高い類似性を持つ場合に苦労する。
本稿では,空間チャネルクロストランスネットワーク(SCTransNet)を提案する。
論文 参考訳(メタデータ) (2024-01-28T06:41:15Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - Remote Sensing Image Change Detection with Graph Interaction [1.8579693774597708]
本稿では,BGINet-CDを用いたリモートセンシングによる画像変化検出のためのバイテンポラル画像グラフインタラクションネットワークを提案する。
本モデルは,GZ CDデータセット上の他の最先端手法(SOTA)と比較して,優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-05T03:32:49Z) - Learning Spatial-Frequency Transformer for Visual Object Tracking [15.750739748843744]
最近のトラッカーはTransformerを採用して、広く使われているResNetを新しいバックボーンネットワークとして組み合わせたり置き換えたりしている。
これらの操作は、ターゲットオブジェクトの空間的先行を無視し、最適以下の結果をもたらす可能性があると信じている。
本稿では,GPHA(Spatial Prior and High- frequency emphasis Attention)を同時にモデル化した空間周波数変換器を提案する。
論文 参考訳(メタデータ) (2022-08-18T13:46:12Z) - Integral Migrating Pre-trained Transformer Encoder-decoders for Visual
Object Detection [78.2325219839805]
imTEDは、数発のオブジェクト検出の最先端を最大7.6%改善する。
MS COCOデータセットの実験は、imTEDが一貫してそのデータセットを2.8%上回っていることを示している。
論文 参考訳(メタデータ) (2022-05-19T15:11:20Z) - SwinNet: Swin Transformer drives edge-aware RGB-D and RGB-T salient
object detection [12.126413875108993]
本稿では,RGB-D と RGB-T の有向物体検出のための相互モード融合モデル SwinNet を提案する。
提案モデルは,RGB-DデータセットとRGB-Tデータセットの最先端モデルより優れている。
論文 参考訳(メタデータ) (2022-04-12T07:37:39Z) - Miti-DETR: Object Detection based on Transformers with Mitigatory
Self-Attention Convergence [17.854940064699985]
本稿では,緩和的自己認識機構を備えたトランスフォーマーアーキテクチャを提案する。
Miti-DETRは、各注意層の入力をそのレイヤの出力に予約し、「非注意」情報が注意伝播に関与するようにします。
Miti-DETRは、既存のDETRモデルに対する平均検出精度と収束速度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-12-26T03:23:59Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。