論文の概要: Rethinking Scanning Strategies with Vision Mamba in Semantic Segmentation of Remote Sensing Imagery: An Experimental Study
- arxiv url: http://arxiv.org/abs/2405.08493v1
- Date: Tue, 14 May 2024 10:36:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 14:28:33.717299
- Title: Rethinking Scanning Strategies with Vision Mamba in Semantic Segmentation of Remote Sensing Imagery: An Experimental Study
- Title(参考訳): リモートセンシング画像のセマンティックセグメンテーションにおける視覚マンバによるスキャン戦略の再考:実験的検討
- Authors: Qinfeng Zhu, Yuan Fang, Yuanzhi Cai, Cheng Chen, Lei Fan,
- Abstract要約: 画像のセマンティックセグメンテーションにおける主流走査方向とそれらの組み合わせの影響について検討する。
高解像度リモートセンシング画像のセマンティックセグメンテーションには、単純で単一の走査方向が十分であると考えられる。
- 参考スコア(独自算出の注目度): 7.334290421966221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning methods, especially Convolutional Neural Networks (CNN) and Vision Transformer (ViT), are frequently employed to perform semantic segmentation of high-resolution remotely sensed images. However, CNNs are constrained by their restricted receptive fields, while ViTs face challenges due to their quadratic complexity. Recently, the Mamba model, featuring linear complexity and a global receptive field, has gained extensive attention for vision tasks. In such tasks, images need to be serialized to form sequences compatible with the Mamba model. Numerous research efforts have explored scanning strategies to serialize images, aiming to enhance the Mamba model's understanding of images. However, the effectiveness of these scanning strategies remains uncertain. In this research, we conduct a comprehensive experimental investigation on the impact of mainstream scanning directions and their combinations on semantic segmentation of remotely sensed images. Through extensive experiments on the LoveDA, ISPRS Potsdam, and ISPRS Vaihingen datasets, we demonstrate that no single scanning strategy outperforms others, regardless of their complexity or the number of scanning directions involved. A simple, single scanning direction is deemed sufficient for semantic segmentation of high-resolution remotely sensed images. Relevant directions for future research are also recommended.
- Abstract(参考訳): 深層学習法、特に畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)は高解像度のリモートセンシング画像のセマンティックセグメンテーションを行うために頻繁に使用される。
しかし、CNNは制限された受容野に制約されているのに対し、ViTは2次複雑さのために課題に直面している。
近年,線形複雑度と大域的受容場を特徴とするマンバモデルが視覚タスクに広く注目されている。
このようなタスクでは、イメージをシリアライズして、Mambaモデルと互換性のあるシーケンスを生成する必要がある。
多くの研究がイメージのシリアライズのためのスキャン戦略を探求しており、マンバモデルのイメージ理解を強化することを目的としている。
しかし,これらのスキャニング手法の有効性は未だ不明である。
本研究では,主流走査方向とそれらの組み合わせがリモートセンシング画像のセマンティックセグメンテーションに与える影響について,包括的実験を行った。
LoveDA, ISPRS Potsdam, ISPRS Vaihingenデータセットの広範な実験を通じて, 複雑さや走査方向の数に関わらず, 単一の走査戦略が他よりも優れていることが実証された。
高解像度リモートセンシング画像のセマンティックセグメンテーションには、単純で単一の走査方向が十分であると考えられる。
今後の研究の方向性も推奨されている。
関連論文リスト
- DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。
スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。
DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-02-18T08:12:47Z) - Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention [59.19580789952102]
本稿では,RS画像セマンティックセグメンテーションタスクのための,新しい半教師付きマルチスケール不確かさとクロスTeacher-Student Attention(MUCA)モデルを提案する。
MUCAは、マルチスケールの不確実性整合正則化を導入することにより、ネットワークの異なる層における特徴写像間の整合性を制限する。
MUCAは学生ネットワークの誘導にクロス教師・学生の注意機構を使用し、学生ネットワークにより差別的な特徴表現を構築するよう誘導する。
論文 参考訳(メタデータ) (2025-01-18T11:57:20Z) - MambaCSR: Dual-Interleaved Scanning for Compressed Image Super-Resolution With SSMs [14.42424591513825]
MambaCSRは、圧縮画像超解像(CSR)タスクのためのMambaをベースにしたフレームワークである。
本稿では,2つの走査戦略からなるCSRのための効率的なデュアルインターリーブ走査パラダイム(DIS)を提案する。
複数のベンチマークの結果から,圧縮画像超解像タスクにおけるMambaCSRの優れた性能が示された。
論文 参考訳(メタデータ) (2024-08-21T16:30:45Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - An Empirical Study of Remote Sensing Pretraining [117.90699699469639]
本研究では,空中画像におけるリモートセンシング事前訓練(RSP)の実証的研究を行った。
RSPは、シーン認識タスクで特有のパフォーマンスを提供するのに役立つ。
RSPは、従来のイメージネットがRS画像に事前学習する際のデータ格差を緩和するが、それでもタスクの相違に悩まされる可能性がある。
論文 参考訳(メタデータ) (2022-04-06T13:38:11Z) - Homography augumented momentum constrastive learning for SAR image
retrieval [3.9743795764085545]
本稿では, ホログラフィ変換を用いた画像検索手法を提案する。
また,ラベル付け手順を必要としないコントラスト学習によって誘導されるDNNのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-21T17:27:07Z) - Advances in Deep Learning for Hyperspectral Image Analysis--Addressing
Challenges Arising in Practical Imaging Scenarios [7.41157183358269]
我々は,強靭なハイパースペクトル画像解析にディープラーニングを活用するコミュニティの進歩を概観する。
課題は 地上の真実と データの高次元的な性質です
具体的には,画像解析における教師なし,半教師付き,アクティブな学習手法について検討する。
論文 参考訳(メタデータ) (2020-07-16T19:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。