論文の概要: LMFNet: An Efficient Multimodal Fusion Approach for Semantic Segmentation in High-Resolution Remote Sensing
- arxiv url: http://arxiv.org/abs/2404.13659v1
- Date: Sun, 21 Apr 2024 13:29:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 18:01:50.392068
- Title: LMFNet: An Efficient Multimodal Fusion Approach for Semantic Segmentation in High-Resolution Remote Sensing
- Title(参考訳): LMFNet:高分解能リモートセンシングにおけるセマンティックセグメンテーションのための効率的なマルチモーダル融合手法
- Authors: Tong Wang, Guanzhou Chen, Xiaodong Zhang, Chenxi Liu, Xiaoliang Tan, Jiaqi Wang, Chanjuan He, Wenlin Zhou,
- Abstract要約: 現在のメソッドは2種類のデータしか処理せず、追加のモダリティが提供できる豊富な情報を欠いていることが多い。
我々は,新しい textbfLightweight textbfMultimodal data textbfFusion textbfNetwork (LMFNet) を提案する。
LMFNetは、RGB、NirRG、DSMを含む様々なデータタイプを、重量共有型マルチブランチ・ビジョン・トランスフォーマーで同時に対応している。
- 参考スコア(独自算出の注目度): 25.016421338677816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the rapid evolution of semantic segmentation for land cover classification in high-resolution remote sensing imagery, integrating multiple data modalities such as Digital Surface Model (DSM), RGB, and Near-infrared (NIR) remains a challenge. Current methods often process only two types of data, missing out on the rich information that additional modalities can provide. Addressing this gap, we propose a novel \textbf{L}ightweight \textbf{M}ultimodal data \textbf{F}usion \textbf{Net}work (LMFNet) to accomplish the tasks of fusion and semantic segmentation of multimodal remote sensing images. LMFNet uniquely accommodates various data types simultaneously, including RGB, NirRG, and DSM, through a weight-sharing, multi-branch vision transformer that minimizes parameter count while ensuring robust feature extraction. Our proposed multimodal fusion module integrates a \textit{Multimodal Feature Fusion Reconstruction Layer} and \textit{Multimodal Feature Self-Attention Fusion Layer}, which can reconstruct and fuse multimodal features. Extensive testing on public datasets such as US3D, ISPRS Potsdam, and ISPRS Vaihingen demonstrates the effectiveness of LMFNet. Specifically, it achieves a mean Intersection over Union ($mIoU$) of 85.09\% on the US3D dataset, marking a significant improvement over existing methods. Compared to unimodal approaches, LMFNet shows a 10\% enhancement in $mIoU$ with only a 0.5M increase in parameter count. Furthermore, against bimodal methods, our approach with trilateral inputs enhances $mIoU$ by 0.46 percentage points.
- Abstract(参考訳): 高解像度リモートセンシング画像における土地被覆分類のためのセマンティックセグメンテーションの急速な進化にもかかわらず、DSM(Digital Surface Model)やRGB(RGB)、NIR(Near-infrared)といった複数のデータモダリティの統合は依然として課題である。
現在のメソッドは2種類のデータしか処理せず、追加のモダリティが提供できる豊富な情報を欠いていることが多い。
このギャップに対処するため,マルチモーダルリモートセンシング画像の融合とセマンティックセマンティックセグメンテーションを実現するために,新しい \textbf{L}ightweight \textbf{M}ultimodal data \textbf{F}usion \textbf{Net}work (LMFNet) を提案する。
LMFNetは、RGB、NirRG、DSMを含む様々なデータタイプを、頑健な特徴抽出を確保しつつパラメータ数を最小化する重み共有多分岐視覚変換器を通じて同時に扱う。
提案するマルチモーダル融合モジュールは, マルチモーダルな特徴を再構成・融合可能な, \textit{Multimodal Feature Fusion Layer} と \textit{Multimodal Feature Self-Attention Fusion Layer} を統合する。
US3D、ISPRS Potsdam、ISPRS Vaihingenといった公開データセットの大規模なテストは、LMFNetの有効性を実証している。
具体的には、US3Dデータセット上で85.09\%の平均的ユニオン(mIoU$)のインターセクションを達成しており、既存の手法よりも大幅に改善されている。
一方, LMFNetではmIoU$が10倍に向上し, パラメータ数は0.5Mに留まった。
さらに, バイモーダル法に対して, 三方向入力によるアプローチによりmIoU$が0.46ポイント向上した。
関連論文リスト
- Centering the Value of Every Modality: Towards Efficient and Resilient Modality-agnostic Semantic Segmentation [7.797154022794006]
最近の試みでは、RGBのモダリティを中心とみなし、その他を補助的とみなし、2つの枝を持つ非対称なアーキテクチャを生み出している。
本稿では,コンパクトモデルから高性能モデルまで,様々なバックボーンと柔軟にペアリングできるMAGICという新しい手法を提案する。
提案手法は, モデルパラメータを60%削減しつつ, 最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-16T03:19:59Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - FedFusion: Manifold Driven Federated Learning for Multi-satellite and
Multi-modality Fusion [30.909597853659506]
本稿では,各クライアント上の局所データをランダムにサンプリングし,各クライアントの浅い特徴の顕著な多様体構造を共同で推定する,多様体駆動多モード融合フレームワークであるFedFusionを提案する。
衛星コンステレーションの物理空間制限を考慮し、深層潜伏空間における多様体データに特化して設計されたマルチモーダル・フェデレーション学習モジュールを開発した。
提案フレームワークは,従来の3つのマルチモーダルデータセットの性能を上回り,通信コストを4.5%圧縮しながら,分類平均精度94.35$%を実現している。
論文 参考訳(メタデータ) (2023-11-16T03:29:19Z) - Accurate and lightweight dehazing via multi-receptive-field non-local
network and novel contrastive regularization [9.90146712189936]
本稿では,マルチ受信フィールド非局所ネットワーク(MRFNLN)を提案する。
マルチストリーム機能アテンションブロック(MSFAB)とクロス非ローカルブロック(CNLB)として設計されている。
これは、150万のパラメータ未満の最近の最先端の脱ハージング手法よりも優れています。
論文 参考訳(メタデータ) (2023-09-28T14:59:16Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Multi-modal land cover mapping of remote sensing images using pyramid
attention and gated fusion networks [20.66034058363032]
本稿では、新しいピラミッド注意融合(PAF)モジュールとゲート融合ユニット(GFU)に基づくマルチモーダルリモートセンシングデータの土地被覆マッピングのための新しいマルチモーダルネットワークを提案する。
PAFモジュールは、内蔵のクロスレベルおよびクロスビューアテンション融合機構により、各モードからより微細なコンテキスト表現を効率的に得るように設計されている。
GFUモジュールは、新機能の早期マージに新しいゲーティング機構を使用し、隠れた冗長性とノイズを減少させる。
論文 参考訳(メタデータ) (2021-11-06T10:01:01Z) - M2RNet: Multi-modal and Multi-scale Refined Network for RGB-D Salient
Object Detection [1.002712867721496]
RGB-Dに基づく手法は、多モード特徴融合の不整合性とマルチスケール特徴集合の不整合に悩まされることが多い。
マルチモーダル・マルチスケール改良ネットワーク(M2RNet)を提案する。
このネットワークには3つの重要なコンポーネントが紹介されている。
論文 参考訳(メタデータ) (2021-09-16T12:15:40Z) - Perception-aware Multi-sensor Fusion for 3D LiDAR Semantic Segmentation [59.42262859654698]
3Dセマンティックセグメンテーションは、自動運転やロボット工学など、多くのアプリケーションにおいてシーン理解において重要である。
既存の融合法は、2つのモードの差が大きいため、有望な性能を達成できない。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。