論文の概要: Multi-encoder ConvNeXt Network with Smooth Attentional Feature Fusion for Multispectral Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2602.10137v1
- Date: Sun, 08 Feb 2026 12:42:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.162395
- Title: Multi-encoder ConvNeXt Network with Smooth Attentional Feature Fusion for Multispectral Semantic Segmentation
- Title(参考訳): Smooth Attentional Feature Fusion を用いたマルチエンコーダ ConvNeXt ネットワークによるマルチスペクトルセマンティックセマンティックセグメンテーション
- Authors: Leo Thomas Ramos, Angel D. Sappa,
- Abstract要約: MeCSAFNetはマルチスペクトル画像におけるランドカバーセグメンテーションのためのマルチブランチエンコーダデコーダアーキテクチャである。
専用核融合デコーダは、複数のスケールで中間機能を統合し、微細な空間的手がかりと高レベルのスペクトル表現を組み合わせた。
Five-Billion-Pixels(FBP)とPotsdamデータセットの実験は、大幅なパフォーマンス向上を示している。
- 参考スコア(独自算出の注目度): 0.7877961820015923
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This work proposes MeCSAFNet, a multi-branch encoder-decoder architecture for land cover segmentation in multispectral imagery. The model separately processes visible and non-visible channels through dual ConvNeXt encoders, followed by individual decoders that reconstruct spatial information. A dedicated fusion decoder integrates intermediate features at multiple scales, combining fine spatial cues with high-level spectral representations. The feature fusion is further enhanced with CBAM attention, and the ASAU activation function contributes to stable and efficient optimization. The model is designed to process different spectral configurations, including a 4-channel (4c) input combining RGB and NIR bands, as well as a 6-channel (6c) input incorporating NDVI and NDWI indices. Experiments on the Five-Billion-Pixels (FBP) and Potsdam datasets demonstrate significant performance gains. On FBP, MeCSAFNet-base (6c) surpasses U-Net (4c) by +19.21%, U-Net (6c) by +14.72%, SegFormer (4c) by +19.62%, and SegFormer (6c) by +14.74% in mIoU. On Potsdam, MeCSAFNet-large (4c) improves over DeepLabV3+ (4c) by +6.48%, DeepLabV3+ (6c) by +5.85%, SegFormer (4c) by +9.11%, and SegFormer (6c) by +4.80% in mIoU. The model also achieves consistent gains over several recent state-of-the-art approaches. Moreover, compact variants of MeCSAFNet deliver notable performance with lower training time and reduced inference cost, supporting their deployment in resource-constrained environments.
- Abstract(参考訳): 本研究では,マルチスペクトル画像における土地被覆セグメンテーションのためのマルチブランチエンコーダデコーダアーキテクチャであるMeCSAFNetを提案する。
モデルは2つのConvNeXtエンコーダを通して可視チャネルと非可視チャネルを別々に処理し、次いで空間情報を再構成する個別デコーダが続く。
専用核融合デコーダは、複数のスケールで中間機能を統合し、微細な空間的手がかりと高レベルのスペクトル表現を組み合わせた。
機能融合はCBAMによりさらに強化され、ASAUアクティベーション関数は安定かつ効率的な最適化に寄与する。
このモデルは、RGBとNIRのバンドを組み合わせた4チャンネル(4c)の入力や、NDVIとNDWIのインデックスを組み込んだ6チャンネル(6c)の入力など、異なるスペクトル構成を処理するように設計されている。
Five-Billion-Pixels(FBP)とPotsdamデータセットの実験は、大幅なパフォーマンス向上を示している。
FBPでは、MeCSAFNet-base (6c) がU-Net (4c) を +19.21%、U-Net (6c) が +14.72%、SegFormer (4c) が +19.62%、SegFormer (6c) が +14.74% を mOoU で上回る。
Potsdamでは、MeCSAFNet-large (4c)がDeepLabV3+ (4c)を+6.48%、DeepLabV3+ (6c)を+5.85%、SegFormer (4c)を+9.11%、SegFormer (6c)を+4.80%改善している。
このモデルは、最近の最先端のアプローチよりも一貫した利得も達成している。
さらに、MeCSAFNetの小型版は、トレーニング時間を短縮し、推論コストを低減し、リソース制約のある環境でのデプロイメントをサポートするなど、優れたパフォーマンスを提供する。
関連論文リスト
- SegMAN: Omni-scale Context Modeling with State Space Models and Local Attention for Semantic Segmentation [45.68176825375723]
高品質なセマンティックセグメンテーションは,グローバルコンテキストモデリング,ローカルディテールエンコーディング,マルチスケール機能抽出という,3つの重要な機能に依存している。
SegMANと呼ばれるハイブリッド機能エンコーダと状態空間モデルに基づくデコーダを組み合わせた新しい線形時間モデルであるSegMANを紹介する。
論文 参考訳(メタデータ) (2024-12-16T15:38:25Z) - LHU-Net: a Lean Hybrid U-Net for Cost-efficient, High-performance Volumetric Segmentation [4.168081528698768]
ボリューム医療画像分割のためのリーンハイブリッドU-NetであるLHU-Netを提案する。
LHU-Netは、チャンネルの特徴を洗練する前に空間的特徴抽出を優先し、効率と精度の両方を最適化する。
Synapse、Left Atrial、BraTS-Decathlon、Lung-Decathlonの4つのベンチマークデータセットによる評価
論文 参考訳(メタデータ) (2024-04-07T22:58:18Z) - CROMA: Remote Sensing Representations with Contrastive Radar-Optical
Masked Autoencoders [2.7624021966289605]
リモートセンシングは、広範にラベル付き、空間的に整列したマルチモーダルデータを提供する。
コントラストと再構成を組み合わせたフレームワークであるCROMAを,リッチな一様・多様表現の学習のために提案する。
論文 参考訳(メタデータ) (2023-11-01T15:07:27Z) - Dual Cross-Attention for Medical Image Segmentation [0.0]
医用画像セグメンテーションのためのU-Netアーキテクチャにおけるスキップ接続性を高めるために、DCA(Dual Cross-Attention)を提案する。
DCAは、チャネルと空間の依存関係を逐次キャプチャすることで、エンコーダとデコーダの機能間のセマンティックギャップに対処する。
DCAモジュールでは、Dice ScoreがGlaSで2.05%、MoNuSegで2.74%、CVC-ClinicDBで1.37%、Kvasir-Segで1.12%、Synapseデータセットで1.44%向上している。
論文 参考訳(メタデータ) (2023-03-30T20:24:57Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - UniNet: Unified Architecture Search with Convolution, Transformer, and
MLP [39.489331136395535]
本稿では,高性能ネットワークのための新しい統一アーキテクチャ探索手法を提案する。
まず、全く異なる探索可能作用素を統一形式でモデル化する。
次に、異なるタイプの演算子間のギャップを軽減するために、コンテキスト対応のダウンサンプリングモジュール(DSM)を提案する。
第3に,演算子とDSMを統合検索空間に統合し,強化学習に基づく探索アルゴリズムを用いて探索する。
論文 参考訳(メタデータ) (2022-07-12T09:30:58Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。
我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-25T17:59:54Z) - SegFormer: Simple and Efficient Design for Semantic Segmentation with
Transformers [79.646577541655]
我々は,トランスフォーマーを軽量多層認識(MLP)デコーダと統合するセマンティックセグメンテーションフレームワークであるSegFormerを提案する。
SegFormerは、マルチスケール機能を出力する、新しく構造化されたエンコーダで構成されている。
提案するデコーダは,異なるレイヤからの情報を集約し,局所的な注意とグローバルな注意の両方を強力な表現に結合する。
論文 参考訳(メタデータ) (2021-05-31T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。