論文の概要: Samba: Semantic Segmentation of Remotely Sensed Images with State Space Model
- arxiv url: http://arxiv.org/abs/2404.01705v2
- Date: Thu, 11 Apr 2024 10:05:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 18:06:21.950481
- Title: Samba: Semantic Segmentation of Remotely Sensed Images with State Space Model
- Title(参考訳): Samba: 状態空間モデルによるリモートセンシング画像のセマンティックセグメンテーション
- Authors: Qinfeng Zhu, Yuanzhi Cai, Yuan Fang, Yihan Yang, Cheng Chen, Lei Fan, Anh Nguyen,
- Abstract要約: 本研究では,Sambaという高解像度リモートセンシング画像のためのセマンティックセマンティックセマンティック・セマンティック・フレームワークを提案する。
Sambaは、グローバルなセマンティック情報を効率的に取得するためにステートスペースモデル(SSM)を採用するMambaにインスパイアされている。
The LoveDA, ISPRS Vaihingen, および ISPRS Potsdam データセット上でSambaを評価し、その性能を最高性能の CNN および ViT 手法と比較した。
- 参考スコア(独自算出の注目度): 9.441836673246144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-resolution remotely sensed images pose a challenge for commonly used semantic segmentation methods such as Convolutional Neural Network (CNN) and Vision Transformer (ViT). CNN-based methods struggle with handling such high-resolution images due to their limited receptive field, while ViT faces challenges in handling long sequences. Inspired by Mamba, which adopts a State Space Model (SSM) to efficiently capture global semantic information, we propose a semantic segmentation framework for high-resolution remotely sensed images, named Samba. Samba utilizes an encoder-decoder architecture, with Samba blocks serving as the encoder for efficient multi-level semantic information extraction, and UperNet functioning as the decoder. We evaluate Samba on the LoveDA, ISPRS Vaihingen, and ISPRS Potsdam datasets, comparing its performance against top-performing CNN and ViT methods. The results reveal that Samba achieved unparalleled performance on commonly used remote sensing datasets for semantic segmentation. Our proposed Samba demonstrates for the first time the effectiveness of SSM in semantic segmentation of remotely sensed images, setting a new benchmark in performance for Mamba-based techniques in this specific application. The source code and baseline implementations are available at https://github.com/zhuqinfeng1999/Samba.
- Abstract(参考訳): 高解像度のリモートセンシング画像は、畳み込みニューラルネットワーク(CNN)やビジョントランスフォーマー(ViT)といった一般的なセマンティックセグメンテーション手法の課題となっている。
CNNベースの手法は、受容領域が限られているため、そのような高解像度画像を扱うのに苦労するが、ViTは長いシーケンスを扱う際の課題に直面している。
グローバルな意味情報を効率的に捉えるためにステートスペースモデル(SSM)を採用したMambaに着想を得て,Sambaという高解像度リモートセンシング画像のためのセマンティックセマンティックセマンティック・セマンティック・フレームワークを提案する。
Sambaはエンコーダ-デコーダアーキテクチャを使用し、Sambaブロックは効率的なマルチレベルセマンティック情報抽出のためのエンコーダとして機能し、UperNetはデコーダとして機能する。
The LoveDA, ISPRS Vaihingen, および ISPRS Potsdam データセット上でSambaの評価を行い、その性能を最高性能の CNN および ViT 手法と比較した。
その結果、Sambaはセマンティックセグメンテーションのためによく使われるリモートセンシングデータセットで非並列性能を達成した。
提案したSambaは、リモートセンシング画像のセマンティックセグメンテーションにおけるSSMの有効性を初めて実証し、この特定のアプリケーションにおけるMambaベースの技術のための新しいベンチマークを設定した。
ソースコードとベースラインの実装はhttps://github.com/zhuqinfeng 1999/Samba.comで公開されている。
関連論文リスト
- UNetMamba: An Efficient UNet-Like Mamba for Semantic Segmentation of High-Resolution Remote Sensing Images [4.9571046933387395]
UNetMambaは、MambaをベースにしたUNetに似たセマンティックセグメンテーションモデルである。
UNetMambaは、mIoUによる最先端の手法よりも、LoveDAでは0.87%、ISPRS Vaihingenでは0.39%向上している。
論文 参考訳(メタデータ) (2024-08-21T11:53:53Z) - SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition [71.90536979421093]
本稿では,視覚言語モデル (VLM) の可能性を増幅するために, Gated Alignments (SSPA) フレームワークを用いた分割合成プロンプトを提案する。
我々は、LLMから固有の知識を関連付けるために、文脈内学習アプローチを開発する。
次に,SSP(Split-and-Synthesize Prompting)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-30T15:58:25Z) - CM-UNet: Hybrid CNN-Mamba UNet for Remote Sensing Image Semantic Segmentation [19.496409240783116]
ローカル画像の特徴を抽出するCNNベースのエンコーダと,グローバル情報を集約・統合するMambaベースのデコーダからなるCM-UNetを提案する。
CSMambaブロックとMSAAモジュールを統合することで、CM-UNetは大規模リモートセンシング画像の長距離依存性とマルチスケールグローバルコンテキスト情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-05-17T04:20:12Z) - RS3Mamba: Visual State Space Model for Remote Sensing Images Semantic Segmentation [7.922421805234563]
本稿では,この革新的な技術をリモートセンシングタスクに組み込むために,リモートセンシング画像セマンティックセマンティックセマンティフィケーションMamba (RS3Mamba) という新しいデュアルブランチネットワークを提案する。
RS3MambaはVSSブロックを使用して補助ブランチを構築し、畳み込みベースのメインブランチに追加のグローバル情報を提供する。
ISPRS VaihingenとLoveDA Urbanという2つの広く使われているデータセットの実験結果により、提案されたRS3Mambaの有効性と可能性を実証した。
論文 参考訳(メタデータ) (2024-04-03T04:59:28Z) - RSMamba: Remote Sensing Image Classification with State Space Model [25.32283897448209]
リモートセンシング画像分類のための新しいアーキテクチャであるRSMambaを紹介する。
RSMamba は State Space Model (SSM) をベースにしており、Mamba として知られる効率的なハードウェアを意識した設計を取り入れている。
非時間画像データのモデル化にマンバの容量を増大させる動的マルチパスアクティベーション機構を提案する。
論文 参考訳(メタデータ) (2024-03-28T17:59:49Z) - PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。
マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。
PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文 参考訳(メタデータ) (2024-03-21T17:50:47Z) - Mamba-UNet: UNet-Like Pure Visual Mamba for Medical Image Segmentation [21.1787366866505]
Mamba-UNetは,医療画像のセグメンテーションにおいてU-Netとマンバの能力を相乗化する新しいアーキテクチャである。
Mamba-UNetは純粋にVisual Mamba(VMamba)ベースのエンコーダデコーダ構造を採用しており、ネットワークのさまざまなスケールで空間情報を保存するためにスキップ接続を注入している。
論文 参考訳(メタデータ) (2024-02-07T18:33:04Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - Object discovery and representation networks [78.16003886427885]
本研究では,事前に符号化された構造を自ら発見する自己教師型学習パラダイムを提案する。
Odinはオブジェクト発見と表現ネットワークを結合して意味のある画像のセグメンテーションを発見する。
論文 参考訳(メタデータ) (2022-03-16T17:42:55Z) - Multi-Content Complementation Network for Salient Object Detection in
Optical Remote Sensing Images [108.79667788962425]
光リモートセンシング画像(RSI-SOD)における有能な物体検出は、いまだに課題である。
本稿では, RSI-SOD における複数コンテンツの相補性を検討するために, MCCNet (Multi-Content Complementation Network) を提案する。
MCCMでは、前景機能、エッジ機能、背景機能、グローバル画像レベル機能など、RSI-SODにとって重要な複数の機能について検討する。
論文 参考訳(メタデータ) (2021-12-02T04:46:40Z) - CTNet: Context-based Tandem Network for Semantic Segmentation [77.4337867789772]
本研究では,空間コンテキスト情報とチャネルコンテキスト情報とを対話的に探索し,新しいコンテキストベースタンデムネットワーク(CTNet)を提案する。
セマンティックセグメンテーションのための学習表現の性能をさらに向上するため、2つのコンテキストモジュールの結果を適応的に統合する。
論文 参考訳(メタデータ) (2021-04-20T07:33:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。