論文の概要: SwinMamba: A hybrid local-global mamba framework for enhancing semantic segmentation of remotely sensed images
- arxiv url: http://arxiv.org/abs/2509.20918v1
- Date: Thu, 25 Sep 2025 09:01:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.804379
- Title: SwinMamba: A hybrid local-global mamba framework for enhancing semantic segmentation of remotely sensed images
- Title(参考訳): SwinMamba: リモートセンシング画像のセマンティックセグメンテーションを強化するためのハイブリッドローカル・グローバル・マンバフレームワーク
- Authors: Qinfeng Zhu, Han Li, Liang He, Lei Fan,
- Abstract要約: リモートセンシング画像のセマンティックセグメンテーションのための新しいフレームワークであるSwinMambaを提案する。
SwinMambaは、シフトウィンドウ内の局所的なMambaスタイルのスキャンをグローバルな受容領域に統合し、局所的特徴とグローバル的特徴の両方に対するモデルの認識を強化する。
我々のモデルでは、重なり合うシフトウィンドウを使うことにより、地域間情報交換が強化され、より堅牢な機能統合が促進される。
- 参考スコア(独自算出の注目度): 12.005786828040224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation of remote sensing imagery is a fundamental task in computer vision, supporting a wide range of applications such as land use classification, urban planning, and environmental monitoring. However, this task is often challenged by the high spatial resolution, complex scene structures, and diverse object scales present in remote sensing data. To address these challenges, various deep learning architectures have been proposed, including convolutional neural networks, Vision Transformers, and the recently introduced Vision Mamba. Vision Mamba features a global receptive field and low computational complexity, demonstrating both efficiency and effectiveness in image segmentation. However, its reliance on global scanning tends to overlook critical local features, such as textures and edges, which are essential for achieving accurate segmentation in remote sensing contexts. To tackle this limitation, we propose SwinMamba, a novel framework inspired by the Swin Transformer. SwinMamba integrates localized Mamba-style scanning within shifted windows with a global receptive field, to enhance the model's perception of both local and global features. Specifically, the first two stages of SwinMamba perform local scanning to capture fine-grained details, while its subsequent two stages leverage global scanning to fuse broader contextual information. In our model, the use of overlapping shifted windows enhances inter-region information exchange, facilitating more robust feature integration across the entire image. Extensive experiments on the LoveDA and ISPRS Potsdam datasets demonstrate that SwinMamba outperforms state-of-the-art methods, underscoring its effectiveness and potential as a superior solution for semantic segmentation of remotely sensed imagery.
- Abstract(参考訳): リモートセンシング画像のセマンティックセグメンテーションはコンピュータビジョンの基本課題であり、土地利用分類、都市計画、環境モニタリングなど幅広い用途をサポートする。
しかし、この課題は、高空間分解能、複雑なシーン構造、リモートセンシングデータに存在する多様なオブジェクトスケールによってしばしば解決される。
これらの課題に対処するために、畳み込みニューラルネットワーク、Vision Transformers、最近導入されたVision Mambaなど、さまざまなディープラーニングアーキテクチャが提案されている。
Vision Mambaは、大域的受容場と低い計算複雑性を備え、画像分割の効率性と有効性を実証している。
しかし、グローバルスキャンへの依存は、リモートセンシングのコンテキストにおいて正確なセグメンテーションを実現するのに欠かせないテクスチャやエッジといった重要な局所的特徴を見落としてしまう傾向にある。
この制限に対処するため,Swin Transformerに触発された新しいフレームワークであるSwinMambaを提案する。
SwinMambaは、シフトウィンドウ内の局所的なMambaスタイルのスキャンをグローバルな受容領域に統合し、局所的特徴とグローバル的特徴の両方に対するモデルの認識を強化する。
具体的には、SwinMambaの最初の2段階は局所走査を行い、細かな詳細を捉え、その後2段階はグローバルスキャンを利用してより広い文脈情報を融合する。
我々のモデルでは、重なり合うシフトウィンドウを用いることで、領域間の情報交換が促進され、画像全体の機能統合がより堅牢になる。
LoveDAとISPRS Potsdamデータセットの大規模な実験により、SwinMambaは最先端の手法よりも優れており、リモートセンシング画像のセマンティックセグメンテーションの優れたソリューションとしての有効性と可能性を強調している。
関連論文リスト
- GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。
これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。
マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文 参考訳(メタデータ) (2025-08-14T11:31:43Z) - AtrousMamaba: An Atrous-Window Scanning Visual State Space Model for Remote Sensing Change Detection [29.004019252136565]
本稿では,グローバルな文脈情報の統合と微粒な局所的詳細情報の抽出のバランスをとる新しいモデルであるAtrousMambaを提案する。
AWVSS(Atrous window scan visual state space)モジュールを活用することで、バイナリチェンジ検出(BCD)とセマンティックチェンジ検出(SCD)のためのエンド・ツー・エンドのMambaベースのフレームワークを設計する。
6つのベンチマークデータセットの実験結果は、提案フレームワークが既存のCNNベース、Transformerベース、Mambaベースの手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-07-22T02:36:16Z) - QuadMamba: Learning Quadtree-based Selective Scan for Visual State Space Model [16.01259690063522]
QuadMambaと呼ばれる新しいビジョンMambaモデルは、クアッドツリーベースのイメージパーティションとスキャンを通じて、さまざまな粒度のローカル依存関係をキャプチャする。
QuadMambaは、画像分類、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションなど、さまざまなビジョンタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-09T12:03:50Z) - LoG-VMamba: Local-Global Vision Mamba for Medical Image Segmentation [0.9831489366502301]
State Space ModelであるMambaは、最近、畳み込みニューラルネットワーク(CNN)とトランスフォーマーに競合するパフォーマンスを示した。
医療画像セグメンテーション(MIS)を含むコンピュータビジョンタスクにマンバを適応させる様々な試みがなされている。
論文 参考訳(メタデータ) (2024-08-26T17:02:25Z) - A Novel State Space Model with Local Enhancement and State Sharing for Image Fusion [14.293042131263924]
画像融合タスクでは、異なるソースからのイメージは異なる特徴を持つ。
状態空間モデルとしてのMambaは自然言語処理の分野で登場している。
これらの課題に感化されて、画像融合タスク用に設計されたMambaネットワークをカスタマイズし、改善する。
論文 参考訳(メタデータ) (2024-04-14T16:09:33Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Panoramic Panoptic Segmentation: Insights Into Surrounding Parsing for
Mobile Agents via Unsupervised Contrastive Learning [93.6645991946674]
我々はパノラマパノラマパノプティクスのセグメンテーションを最も総合的なシーン理解として紹介する。
完全な周囲の理解は、移動エージェントに最大限の情報を提供する。
本稿では,標準的なピンホール画像のモデルトレーニングを可能にし,学習した特徴を別のドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T20:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。