論文の概要: RS-Mamba for Large Remote Sensing Image Dense Prediction
- arxiv url: http://arxiv.org/abs/2404.02668v1
- Date: Wed, 3 Apr 2024 12:06:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 17:31:03.087713
- Title: RS-Mamba for Large Remote Sensing Image Dense Prediction
- Title(参考訳): 大容量リモートセンシング画像密度予測のためのRS-Mamba
- Authors: Sijie Zhao, Hao Chen, Xueliang Zhang, Pengfeng Xiao, Lei Bai, Wanli Ouyang,
- Abstract要約: VHRリモートセンシングにおける高密度予測タスクのためのリモートセンシングマンバ(RSM)を提案する。
RSMは、線形複雑なリモートセンシング画像のグローバルな特徴をモデル化し、大きなVHR画像を効率的に処理できるように設計されている。
RSMは、VHRリモートセンシングの高密度予測タスクにおいて最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 58.12667617617306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The spatial resolution of remote sensing images is becoming increasingly higher, posing challenges in handling large very-high-resolution (VHR) remote sensing images for dense prediction tasks. Models based on convolutional neural networks are limited in their ability to model global features of remote sensing images due to local convolution operations. Transformer based models, despite their global modeling capabilities, face computational challenges with large VHR images due to their quadratic complexity. The common practice of cropping large images into smaller patches leads to a significant loss of contextual information. To address these issues, we propose the Remote Sensing Mamba (RSM) for dense prediction tasks in VHR remote sensing. RSM is designed to model global features of remote sensing images with linear complexity, enabling it to process large VHR images effectively. It employs an omnidirectional selective scan module to globally model the images in multiple directions, capturing large spatial features from various directions. Experiments on semantic segmentation and change detection tasks across various objects demonstrate the effectiveness of RSM. With simple model architecture and training approach, RSM achieves state-of-the-art performance on the dense prediction tasks of VHR remote sensing. The code for this work will be available at https://github.com/walking-shadow/Official_Remote_Sensing_Mamba.
- Abstract(参考訳): リモートセンシング画像の空間分解能はますます高まってきており、高密度予測タスクのために大規模な超高解像度(VHR)リモートセンシング画像を扱う上での課題となっている。
畳み込みニューラルネットワークに基づくモデルは、局所畳み込み操作によるリモートセンシング画像のグローバルな特徴をモデル化する能力に制限がある。
トランスフォーマーベースのモデルは、そのグローバルなモデリング能力にもかかわらず、その2次複雑さのため、大きなVHRイメージによる計算上の課題に直面している。
大きな画像を小さなパッチにトリミングする一般的なプラクティスは、コンテキスト情報のかなりの損失をもたらす。
これらの問題に対処するため、VHRリモートセンシングにおける高密度予測タスクのためのリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑なリモートセンシング画像のグローバルな特徴をモデル化し、大きなVHR画像を効率的に処理できるように設計されている。
このモジュールは全方向選択的スキャンモジュールを使用して、複数の方向から画像をモデル化し、様々な方向から大きな空間的特徴を捉えている。
様々なオブジェクトに対する意味的セグメンテーションと変化検出タスクの実験は、RCMの有効性を実証している。
シンプルなモデルアーキテクチャとトレーニングアプローチにより、RSMはVHRリモートセンシングの高密度予測タスクにおいて最先端のパフォーマンスを達成する。
この作業のコードはhttps://github.com/walking-shadow/Official_Remote_Sensing_Mambaで公開される。
関連論文リスト
- Enhancing Ultra High Resolution Remote Sensing Imagery Analysis with ImageRAG [24.342190878813234]
ImageRAG for RSは、UHRリモートセンシング画像の解析の複雑さに対処する、トレーニング不要のフレームワークである。
ImageRAGのコアイノベーションは、UHRイメージの最も関連性の高い部分を視覚的コンテキストとして選択的に検索し、焦点を合わせる能力にある。
論文 参考訳(メタデータ) (2024-11-12T10:12:12Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Semantic Guided Large Scale Factor Remote Sensing Image Super-resolution with Generative Diffusion Prior [13.148815217684277]
大規模因子超解像(SR)アルゴリズムは、軌道から取得した低解像度(LR)衛星データの最大化に不可欠である。
既存の手法では、鮮明なテクスチャと正しい接地オブジェクトでSR画像を復元する際の課題に直面している。
本稿では,大規模リモートセンシング画像の超解像を実現するための新しいフレームワークであるセマンティックガイド拡散モデル(SGDM)を提案する。
論文 参考訳(メタデータ) (2024-05-11T16:06:16Z) - VmambaIR: Visual State Space Model for Image Restoration [36.11385876754612]
VmambaIRは、画像復元タスクに線形に複雑な状態空間モデル(SSM)を導入する。
VmambaIRは、より少ない計算資源とパラメータで最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2024-03-18T02:38:55Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - DDet: Dual-path Dynamic Enhancement Network for Real-World Image
Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。
本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。
特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文 参考訳(メタデータ) (2020-02-25T18:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。