論文の概要: ASANet: Asymmetric Semantic Aligning Network for RGB and SAR image land cover classification
- arxiv url: http://arxiv.org/abs/2412.02044v1
- Date: Tue, 03 Dec 2024 00:03:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:42:24.592754
- Title: ASANet: Asymmetric Semantic Aligning Network for RGB and SAR image land cover classification
- Title(参考訳): ASANet:RGBおよびSAR画像ランドカバー分類のための非対称セマンティックアライニングネットワーク
- Authors: Pan Zhang, Baochai Peng, Chaoran Lu, Quanjin Huang,
- Abstract要約: 特徴レベルでの非対称性の問題に対処するため,非対称セマンティックアライニングネットワーク (ASANet) という新しいアーキテクチャを提案する。
提案するASANetは,2つのモード間の特徴相関を効果的に学習し,特徴差によるノイズを除去する。
我々は、新しいRGB-SARマルチモーダルデータセットを構築し、ASANetは1.21%から17.69%の改善で他の主流メソッドよりも優れています。
- 参考スコア(独自算出の注目度): 5.863175733097434
- License:
- Abstract: Synthetic Aperture Radar (SAR) images have proven to be a valuable cue for multimodal Land Cover Classification (LCC) when combined with RGB images. Most existing studies on cross-modal fusion assume that consistent feature information is necessary between the two modalities, and as a result, they construct networks without adequately addressing the unique characteristics of each modality. In this paper, we propose a novel architecture, named the Asymmetric Semantic Aligning Network (ASANet), which introduces asymmetry at the feature level to address the issue that multi-modal architectures frequently fail to fully utilize complementary features. The core of this network is the Semantic Focusing Module (SFM), which explicitly calculates differential weights for each modality to account for the modality-specific features. Furthermore, ASANet incorporates a Cascade Fusion Module (CFM), which delves deeper into channel and spatial representations to efficiently select features from the two modalities for fusion. Through the collaborative effort of these two modules, the proposed ASANet effectively learns feature correlations between the two modalities and eliminates noise caused by feature differences. Comprehensive experiments demonstrate that ASANet achieves excellent performance on three multimodal datasets. Additionally, we have established a new RGB-SAR multimodal dataset, on which our ASANet outperforms other mainstream methods with improvements ranging from 1.21% to 17.69%. The ASANet runs at 48.7 frames per second (FPS) when the input image is 256x256 pixels. The source code are available at https://github.com/whu-pzhang/ASANet
- Abstract(参考訳): 合成開口レーダ(SAR)画像は,RGB画像と組み合わせることで,マルチモーダル土地被覆分類(LCC)に有用であることが証明されている。
クロスモーダル融合に関する既存の研究は、2つのモダリティの間に一貫した特徴情報が必要であると仮定しており、その結果、各モダリティのユニークな特性に適切に対処することなくネットワークを構築している。
本稿では,非対称セマンティックアライニングネットワーク (ASANet) と呼ばれる新しいアーキテクチャを提案する。
このネットワークのコアはセマンティック・フォーカス・モジュール(SFM)であり、各モードに対する差分重みを明示的に計算し、モダリティ固有の特徴を考慮に入れている。
さらに、ASANetはカスケード・フュージョン・モジュール(CFM)を組み込み、チャネルと空間表現をより深く掘り下げ、融合のための2つのモードから特徴を効率的に選択する。
これら2つのモジュールの協調作業を通じて,提案するASANetは,2つのモジュール間の特徴相関を効果的に学習し,特徴差によるノイズを除去する。
総合的な実験により、ASANetは3つのマルチモーダルデータセットで優れた性能を発揮することが示された。
さらに、新しいRGB-SARマルチモーダルデータセットを確立しました。このデータセットでは、ASANetが1.21%から17.69%の改善とともに、他の主流メソッドよりも優れています。
ASANetは、入力画像が256x256ピクセルのときに毎秒48.7フレーム(FPS)で動作する。
ソースコードはhttps://github.com/whu-pzhang/ASANetで入手できる。
関連論文リスト
- Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - SkipcrossNets: Adaptive Skip-cross Fusion for Road Detection [25.94434460779164]
マルチモーダル・フュージョンは、自動運転タスクにますます利用されている。
本研究では,Skip-cross Networks (SkipcrossNets) と呼ばれる新しい融合アーキテクチャを提案する。
スキップクロス融合戦略の利点は、KITTIとA2D2データセットへの適用を通じて示される。
論文 参考訳(メタデータ) (2023-08-24T15:34:31Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Interactive Context-Aware Network for RGB-T Salient Object Detection [7.544240329265388]
ICANet(Interactive Context-Aware Network)と呼ばれる新しいネットワークを提案する。
ICANetには、クロスモーダルとクロススケールの融合を効果的に実行する3つのモジュールが含まれている。
実験により,我々のネットワークは最先端のRGB-T SOD法に対して良好に動作していることが示された。
論文 参考訳(メタデータ) (2022-11-11T10:04:36Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - MSO: Multi-Feature Space Joint Optimization Network for RGB-Infrared
Person Re-Identification [35.97494894205023]
RGB-infrared cross-modality person re-identification (ReID) タスクは、可視モダリティと赤外線モダリティの同一性の画像を認識することを目的としている。
既存の手法は主に2ストリームアーキテクチャを使用して、最終的な共通特徴空間における2つのモード間の相違を取り除く。
単一モダリティ空間と共通空間の両方において、モダリティ調和可能な特徴を学習できる新しい多機能空間共同最適化(MSO)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T16:45:23Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。