Fugu-MT 論文翻訳(概要): Samba: Semantic Segmentation of Remotely Sensed Images with State Space Model

論文の概要: Samba: Semantic Segmentation of Remotely Sensed Images with State Space Model

arxiv url: http://arxiv.org/abs/2404.01705v2
Date: Thu, 11 Apr 2024 10:05:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-12 18:06:21.950481
Title: Samba: Semantic Segmentation of Remotely Sensed Images with State Space Model
Title（参考訳）: Samba: 状態空間モデルによるリモートセンシング画像のセマンティックセグメンテーション
Authors: Qinfeng Zhu, Yuanzhi Cai, Yuan Fang, Yihan Yang, Cheng Chen, Lei Fan, Anh Nguyen,
Abstract要約: 本研究では,Sambaという高解像度リモートセンシング画像のためのセマンティックセマンティックセマンティック・セマンティック・フレームワークを提案する。 Sambaは、グローバルなセマンティック情報を効率的に取得するためにステートスペースモデル(SSM)を採用するMambaにインスパイアされている。 The LoveDA, ISPRS Vaihingen, および ISPRS Potsdam データセット上でSambaを評価し、その性能を最高性能の CNN および ViT 手法と比較した。
参考スコア（独自算出の注目度）: 9.441836673246144
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: High-resolution remotely sensed images pose a challenge for commonly used semantic segmentation methods such as Convolutional Neural Network (CNN) and Vision Transformer (ViT). CNN-based methods struggle with handling such high-resolution images due to their limited receptive field, while ViT faces challenges in handling long sequences. Inspired by Mamba, which adopts a State Space Model (SSM) to efficiently capture global semantic information, we propose a semantic segmentation framework for high-resolution remotely sensed images, named Samba. Samba utilizes an encoder-decoder architecture, with Samba blocks serving as the encoder for efficient multi-level semantic information extraction, and UperNet functioning as the decoder. We evaluate Samba on the LoveDA, ISPRS Vaihingen, and ISPRS Potsdam datasets, comparing its performance against top-performing CNN and ViT methods. The results reveal that Samba achieved unparalleled performance on commonly used remote sensing datasets for semantic segmentation. Our proposed Samba demonstrates for the first time the effectiveness of SSM in semantic segmentation of remotely sensed images, setting a new benchmark in performance for Mamba-based techniques in this specific application. The source code and baseline implementations are available at https://github.com/zhuqinfeng1999/Samba.
Abstract（参考訳）: 高解像度のリモートセンシング画像は、畳み込みニューラルネットワーク(CNN)やビジョントランスフォーマー(ViT)といった一般的なセマンティックセグメンテーション手法の課題となっている。 CNNベースの手法は、受容領域が限られているため、そのような高解像度画像を扱うのに苦労するが、ViTは長いシーケンスを扱う際の課題に直面している。グローバルな意味情報を効率的に捉えるためにステートスペースモデル(SSM)を採用したMambaに着想を得て,Sambaという高解像度リモートセンシング画像のためのセマンティックセマンティックセマンティック・セマンティック・フレームワークを提案する。 Sambaはエンコーダ-デコーダアーキテクチャを使用し、Sambaブロックは効率的なマルチレベルセマンティック情報抽出のためのエンコーダとして機能し、UperNetはデコーダとして機能する。 The LoveDA, ISPRS Vaihingen, および ISPRS Potsdam データセット上でSambaの評価を行い、その性能を最高性能の CNN および ViT 手法と比較した。その結果、Sambaはセマンティックセグメンテーションのためによく使われるリモートセンシングデータセットで非並列性能を達成した。提案したSambaは、リモートセンシング画像のセマンティックセグメンテーションにおけるSSMの有効性を初めて実証し、この特定のアプリケーションにおけるMambaベースの技術のための新しいベンチマークを設定した。ソースコードとベースラインの実装はhttps://github.com/zhuqinfeng 1999/Samba.comで公開されている。

関連論文リスト

Samba+: General and Accurate Salient Object Detection via A More Unified Mamba-based Framework [66.2103745798444]
Saliency Mamba (Samba) は、純粋なMambaベースのアーキテクチャで、様々な異なるサルトオブジェクト検出タスクを柔軟に処理する。 Sambaは、計算コストの低い22データセット上の6つのSODタスクで、既存のメソッドを個別に上回ります。 Samba+は、トレーニング済みの汎用モデルを使用することで、これらのタスクとデータセット上でさらに優れた結果を得る。
論文参考訳（メタデータ） (2026-02-02T03:34:25Z)
DefMamba: Deformable Visual State Space Model [65.50381013020248]
我々はDefMambaと呼ばれる新しい視覚基盤モデルを提案する。変形性スキャン(DS)戦略を組み合わせることで、画像構造を学習し、オブジェクトの細部の変化を検出する能力を大幅に向上する。多くの実験により、DefMambaは様々な視覚的タスクで最先端のパフォーマンスを達成することが示されている。
論文参考訳（メタデータ） (2025-04-08T08:22:54Z)
DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。 DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文参考訳（メタデータ） (2025-02-18T08:12:47Z)
SMLNet: A SPD Manifold Learning Network for Infrared and Visible Image Fusion [60.18614468818683]
マルチモーダル画像融合のための新しいSPD(対称正定値)多様体学習を提案する。我々のフレームワークは現在の最先端手法と比較して優れた性能を示す。
論文参考訳（メタデータ） (2024-11-16T03:09:49Z)
UNetMamba: An Efficient UNet-Like Mamba for Semantic Segmentation of High-Resolution Remote Sensing Images [4.9571046933387395]
UNetMambaは、MambaをベースにしたUNetに似たセマンティックセグメンテーションモデルである。 UNetMambaは、mIoUによる最先端の手法よりも、LoveDAでは0.87%、ISPRS Vaihingenでは0.39%向上している。
論文参考訳（メタデータ） (2024-08-21T11:53:53Z)
SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition [71.90536979421093]
本稿では,視覚言語モデル (VLM) の可能性を増幅するために, Gated Alignments (SSPA) フレームワークを用いた分割合成プロンプトを提案する。我々は、LLMから固有の知識を関連付けるために、文脈内学習アプローチを開発する。次に,SSP(Split-and-Synthesize Prompting)戦略を提案する。
論文参考訳（メタデータ） (2024-07-30T15:58:25Z)
Efficient Visual State Space Model for Image Deblurring [99.54894198086852]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。提案したEVSSMは、ベンチマークデータセットや実世界の画像に対する最先端の手法に対して好意的に機能する。
論文参考訳（メタデータ） (2024-05-23T09:13:36Z)
CM-UNet: Hybrid CNN-Mamba UNet for Remote Sensing Image Semantic Segmentation [19.496409240783116]
ローカル画像の特徴を抽出するCNNベースのエンコーダと,グローバル情報を集約・統合するMambaベースのデコーダからなるCM-UNetを提案する。 CSMambaブロックとMSAAモジュールを統合することで、CM-UNetは大規模リモートセンシング画像の長距離依存性とマルチスケールグローバルコンテキスト情報を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-05-17T04:20:12Z)
RS3Mamba: Visual State Space Model for Remote Sensing Images Semantic Segmentation [7.922421805234563]
本稿では,この革新的な技術をリモートセンシングタスクに組み込むために,リモートセンシング画像セマンティックセマンティックセマンティフィケーションMamba (RS3Mamba) という新しいデュアルブランチネットワークを提案する。 RS3MambaはVSSブロックを使用して補助ブランチを構築し、畳み込みベースのメインブランチに追加のグローバル情報を提供する。 ISPRS VaihingenとLoveDA Urbanという2つの広く使われているデータセットの実験結果により、提案されたRS3Mambaの有効性と可能性を実証した。
論文参考訳（メタデータ） (2024-04-03T04:59:28Z)
RSMamba: Remote Sensing Image Classification with State Space Model [25.32283897448209]
リモートセンシング画像分類のための新しいアーキテクチャであるRSMambaを紹介する。 RSMamba は State Space Model (SSM) をベースにしており、Mamba として知られる効率的なハードウェアを意識した設計を取り入れている。非時間画像データのモデル化にマンバの容量を増大させる動的マルチパスアクティベーション機構を提案する。
論文参考訳（メタデータ） (2024-03-28T17:59:49Z)
PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。 PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文参考訳（メタデータ） (2024-03-21T17:50:47Z)
Mamba-UNet: UNet-Like Pure Visual Mamba for Medical Image Segmentation [21.1787366866505]
Mamba-UNetは,医療画像のセグメンテーションにおいてU-Netとマンバの能力を相乗化する新しいアーキテクチャである。 Mamba-UNetは純粋にVisual Mamba(VMamba)ベースのエンコーダデコーダ構造を採用しており、ネットワークのさまざまなスケールで空間情報を保存するためにスキップ接続を注入している。
論文参考訳（メタデータ） (2024-02-07T18:33:04Z)
De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文参考訳（メタデータ） (2023-03-29T18:07:25Z)
Object discovery and representation networks [78.16003886427885]
本研究では,事前に符号化された構造を自ら発見する自己教師型学習パラダイムを提案する。 Odinはオブジェクト発見と表現ネットワークを結合して意味のある画像のセグメンテーションを発見する。
論文参考訳（メタデータ） (2022-03-16T17:42:55Z)
Multi-Content Complementation Network for Salient Object Detection in Optical Remote Sensing Images [108.79667788962425]
光リモートセンシング画像(RSI-SOD)における有能な物体検出は、いまだに課題である。本稿では, RSI-SOD における複数コンテンツの相補性を検討するために, MCCNet (Multi-Content Complementation Network) を提案する。 MCCMでは、前景機能、エッジ機能、背景機能、グローバル画像レベル機能など、RSI-SODにとって重要な複数の機能について検討する。
論文参考訳（メタデータ） (2021-12-02T04:46:40Z)
CTNet: Context-based Tandem Network for Semantic Segmentation [77.4337867789772]
本研究では,空間コンテキスト情報とチャネルコンテキスト情報とを対話的に探索し,新しいコンテキストベースタンデムネットワーク(CTNet)を提案する。セマンティックセグメンテーションのための学習表現の性能をさらに向上するため、2つのコンテキストモジュールの結果を適応的に統合する。
論文参考訳（メタデータ） (2021-04-20T07:33:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。