論文の概要: AMMNet: An Asymmetric Multi-Modal Network for Remote Sensing Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2507.16158v1
- Date: Tue, 22 Jul 2025 02:07:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.932336
- Title: AMMNet: An Asymmetric Multi-Modal Network for Remote Sensing Semantic Segmentation
- Title(参考訳): AMMNet:リモートセンシングセマンティックセマンティックセグメンテーションのための非対称多モードネットワーク
- Authors: Hui Ye, Haodong Chen, Zeke Zexi Hu, Xiaoming Chen, Yuk Ying Chung,
- Abstract要約: Asymmetric Multi-Modal Network (AMMNet) は、RGB-DSM入力ペアに適した3つの設計で堅牢なセグメンテーションを実現する新しい非対称アーキテクチャである。
AMMNetは、計算とメモリの要求を低減しつつ、マルチモーダルネットワーク間の最先端のセグメンテーション精度を実現する。
- 参考スコア(独自算出の注目度): 11.92569805944134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic segmentation in remote sensing (RS) has advanced significantly with the incorporation of multi-modal data, particularly the integration of RGB imagery and the Digital Surface Model (DSM), which provides complementary contextual and structural information about the ground object. However, integrating RGB and DSM often faces two major limitations: increased computational complexity due to architectural redundancy, and degraded segmentation performance caused by modality misalignment. These issues undermine the efficiency and robustness of semantic segmentation, particularly in complex urban environments where precise multi-modal integration is essential. To overcome these limitations, we propose Asymmetric Multi-Modal Network (AMMNet), a novel asymmetric architecture that achieves robust and efficient semantic segmentation through three designs tailored for RGB-DSM input pairs. To reduce architectural redundancy, the Asymmetric Dual Encoder (ADE) module assigns representational capacity based on modality-specific characteristics, employing a deeper encoder for RGB imagery to capture rich contextual information and a lightweight encoder for DSM to extract sparse structural features. Besides, to facilitate modality alignment, the Asymmetric Prior Fuser (APF) integrates a modality-aware prior matrix into the fusion process, enabling the generation of structure-aware contextual features. Additionally, the Distribution Alignment (DA) module enhances cross-modal compatibility by aligning feature distributions through divergence minimization. Extensive experiments on the ISPRS Vaihingen and Potsdam datasets demonstrate that AMMNet attains state-of-the-art segmentation accuracy among multi-modal networks while reducing computational and memory requirements.
- Abstract(参考訳): リモートセンシング(RS)におけるセマンティックセグメンテーション(Semantic segmentation)は,マルチモーダルデータの取り込み,特にRGBイメージとDSM(Digital Surface Model)の統合によって大きく進歩している。
しかし、RGBとDSMの統合には、アーキテクチャの冗長性による計算複雑性の増大と、モダリティのミスアライメントによるセグメンテーション性能の低下という2つの大きな制限がある。
これらの問題は、特に正確なマルチモーダル統合が不可欠である複雑な都市環境において、セマンティックセグメンテーションの効率性と堅牢性を損なう。
これらの制約を克服するために,RGB-DSM入力ペアに適した3つの設計により,ロバストで効率的なセマンティックセマンティックセマンティックセグメンテーションを実現する非対称マルチモーダルネットワーク (AMMNet) を提案する。
アーキテクチャ上の冗長性を低減するため、Asymmetric Dual Encoder (ADE) モジュールは、RGB画像のより深いエンコーダを使用して、リッチなコンテキスト情報をキャプチャし、DSM用の軽量エンコーダを使用して、スパース構造の特徴を抽出する。
さらに、モダリティアライメントを容易にするために、Asymmetric Prior Fuser (APF) は、モダリティ対応の事前行列を融合プロセスに統合し、構造対応のコンテキスト特徴の生成を可能にする。
さらに、分散アライメント(DA)モジュールは、分散化による特徴分布の整列により、クロスモーダル互換性を高める。
ISPRS Vaihingen と Potsdam のデータセットに対する大規模な実験により、AMMNet は計算とメモリの要求を低減しつつ、マルチモーダルネットワーク間の最先端のセグメンテーション精度を実現することを示した。
関連論文リスト
- Cross-modal State Space Modeling for Real-time RGB-thermal Wild Scene Semantic Segmentation [31.147154902692748]
RGBと熱データの統合により、フィールドロボットの野生環境におけるセマンティックセグメンテーション性能が大幅に向上する。
本稿では,SSM(クロスモーダル状態空間モデリング)アプローチを利用した効率的なRGB-熱的セマンティックセマンティックセグメンテーションアーキテクチャであるCM-SSMを紹介する。
CM-SSMは、より少ないパラメータと少ない計算コストでCARTデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-22T01:53:11Z) - BIMII-Net: Brain-Inspired Multi-Iterative Interactive Network for RGB-T Road Scene Semantic Segmentation [6.223341988991549]
我々は、BIMII-Net(Brain-Inspired Multi-Iteration Interaction Network)と呼ばれる新しいRGB-Tロードシーンセマンティックセマンティックネットワークを提案する。
まず、自律運転のような道路シナリオにおける正確なテクスチャと局所情報抽出の要件を満たすため、脳にインスパイアされたモデルに基づく深部連続結合ニューラルネットワーク(DCCNN)アーキテクチャを提案する。
第2に,BIMII-Netの機能融合段階において,多モード情報間の相互作用と表現能力を高めるために,クロス明示的な注意強調融合モジュール (CEAEF-Module) を設計した。
最後に,相補的対話型多層復号器を構築した。
論文 参考訳(メタデータ) (2025-03-25T03:09:46Z) - Let Synthetic Data Shine: Domain Reassembly and Soft-Fusion for Single Domain Generalization [68.41367635546183]
単一ドメインの一般化は、単一のソースからのデータを使用して、さまざまなシナリオで一貫したパフォーマンスでモデルをトレーニングすることを目的としている。
モデル一般化を改善するために合成データを活用した学習フレームワークDRSFを提案する。
論文 参考訳(メタデータ) (2025-03-17T18:08:03Z) - P-MSDiff: Parallel Multi-Scale Diffusion for Remote Sensing Image Segmentation [8.46409964236009]
拡散モデルとマルチスケール機能はセグメンテーションタスクにおいて不可欠な要素である。
並列なマルチスケール分岐を持つ拡散モデルとして知られるセマンティックセグメンテーションの新しいモデルを提案する。
我々のモデルは、UAVidとVayhingen Buildingのデータセットに基づいて、J1測定値に基づいて、優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-05-30T19:40:08Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Optimizing rgb-d semantic segmentation through multi-modal interaction
and pooling attention [5.518612382697244]
マルチモーダルインタラクションとプールアテンションネットワーク(MIPANet)は,RGBと奥行きモダリティの相互相乗効果を利用するように設計されている。
エンコーダの様々な段階でプール注意モジュール(PAM)を導入する。
このモジュールは、ネットワークによって抽出された機能を増幅し、モジュールの出力をデコーダに統合する。
論文 参考訳(メタデータ) (2023-11-19T12:25:59Z) - Point-aware Interaction and CNN-induced Refinement Network for RGB-D Salient Object Detection [95.84616822805664]
我々は,CNNによるトランスフォーマーアーキテクチャを導入し,ポイント・アウェア・インタラクションとCNNによるリファインメントを備えた新しいRGB-D SODネットワークを提案する。
トランスフォーマーがもたらすブロック効果とディテール破壊問題を自然に軽減するために,コンテンツリファインメントとサプリメントのためのCNNRユニットを設計する。
論文 参考訳(メタデータ) (2023-08-17T11:57:49Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - MSO: Multi-Feature Space Joint Optimization Network for RGB-Infrared
Person Re-Identification [35.97494894205023]
RGB-infrared cross-modality person re-identification (ReID) タスクは、可視モダリティと赤外線モダリティの同一性の画像を認識することを目的としている。
既存の手法は主に2ストリームアーキテクチャを使用して、最終的な共通特徴空間における2つのモード間の相違を取り除く。
単一モダリティ空間と共通空間の両方において、モダリティ調和可能な特徴を学習できる新しい多機能空間共同最適化(MSO)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T16:45:23Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。