論文の概要: RS-Mamba for Large Remote Sensing Image Dense Prediction
- arxiv url: http://arxiv.org/abs/2404.02668v2
- Date: Wed, 10 Apr 2024 08:47:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 16:38:14.432054
- Title: RS-Mamba for Large Remote Sensing Image Dense Prediction
- Title(参考訳): 大容量リモートセンシング画像密度予測のためのRS-Mamba
- Authors: Sijie Zhao, Hao Chen, Xueliang Zhang, Pengfeng Xiao, Lei Bai, Wanli Ouyang,
- Abstract要約: 本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
- 参考スコア(独自算出の注目度): 58.12667617617306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context modeling is critical for remote sensing image dense prediction tasks. Nowadays, the growing size of very-high-resolution (VHR) remote sensing images poses challenges in effectively modeling context. While transformer-based models possess global modeling capabilities, they encounter computational challenges when applied to large VHR images due to their quadratic complexity. The conventional practice of cropping large images into smaller patches results in a notable loss of contextual information. To address these issues, we propose the Remote Sensing Mamba (RSM) for dense prediction tasks in large VHR remote sensing images. RSM is specifically designed to capture the global context of remote sensing images with linear complexity, facilitating the effective processing of large VHR images. Considering that the land covers in remote sensing images are distributed in arbitrary spatial directions due to characteristics of remote sensing over-head imaging, the RSM incorporates an omnidirectional selective scan module to globally model the context of images in multiple directions, capturing large spatial features from various directions. Extensive experiments on semantic segmentation and change detection tasks across various land covers demonstrate the effectiveness of the proposed RSM. We designed simple yet effective models based on RSM, achieving state-of-the-art performance on dense prediction tasks in VHR remote sensing images without fancy training strategies. Leveraging the linear complexity and global modeling capabilities, RSM achieves better efficiency and accuracy than transformer-based models on large remote sensing images. Interestingly, we also demonstrated that our model generally performs better with a larger image size on dense prediction tasks. Our code is available at https://github.com/walking-shadow/Official_Remote_Sensing_Mamba.
- Abstract(参考訳): コンテキストモデリングは、リモートセンシング画像密度予測タスクに不可欠である。
今日では、超高解像度(VHR)リモートセンシング画像の増大が、コンテキストを効果的にモデル化する上での課題となっている。
トランスフォーマーモデルにはグローバルなモデリング機能があるが、その2次複雑さのために大きなVHR画像に適用した場合、計算上の問題が発生する。
大きな画像を小さなパッチにトリミングする従来の慣行は、コンテキスト情報の顕著な損失をもたらす。
これらの課題に対処するために,大規模なVHRリモートセンシング画像における高密度予測タスクのためのリモートセンシング・マンバ(RSM)を提案する。
RSMは、大規模なVHR画像の効率的な処理を容易にするために、線形複雑でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
リモートセンシングのオーバヘッド画像の特徴により、リモートセンシング画像のランドカバーが任意の空間方向に分布していることを考えると、RSMは全方位選択走査モジュールを組み込んで、複数の方向のイメージのコンテキストをグローバルにモデル化し、様々な方向から大きな空間的特徴を捉えている。
土地被覆における意味的セグメンテーションと変化検出タスクの広範囲にわたる実験により,提案手法の有効性が示された。
我々はRSMをベースとした簡易かつ効果的なモデルの設計を行い、VHRリモートセンシング画像における高密度予測タスクの最先端性能を、豪華なトレーニング戦略なしで実現した。
線形複雑性とグローバルモデリング機能を活用して、RSMは大きなリモートセンシング画像上のトランスフォーマーベースモデルよりも効率と精度を向上する。
興味深いことに、我々のモデルは一般的に、高密度な予測タスクにおいて画像サイズを大きくして、より良く機能することを示した。
私たちのコードはhttps://github.com/walking-shadow/Official_Remote_Sensing_Mambaで利用可能です。
関連論文リスト
- Enhancing Ultra High Resolution Remote Sensing Imagery Analysis with ImageRAG [24.342190878813234]
ImageRAG for RSは、UHRリモートセンシング画像の解析の複雑さに対処する、トレーニング不要のフレームワークである。
ImageRAGのコアイノベーションは、UHRイメージの最も関連性の高い部分を視覚的コンテキストとして選択的に検索し、焦点を合わせる能力にある。
論文 参考訳(メタデータ) (2024-11-12T10:12:12Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Semantic Guided Large Scale Factor Remote Sensing Image Super-resolution with Generative Diffusion Prior [13.148815217684277]
大規模因子超解像(SR)アルゴリズムは、軌道から取得した低解像度(LR)衛星データの最大化に不可欠である。
既存の手法では、鮮明なテクスチャと正しい接地オブジェクトでSR画像を復元する際の課題に直面している。
本稿では,大規模リモートセンシング画像の超解像を実現するための新しいフレームワークであるセマンティックガイド拡散モデル(SGDM)を提案する。
論文 参考訳(メタデータ) (2024-05-11T16:06:16Z) - VmambaIR: Visual State Space Model for Image Restoration [36.11385876754612]
VmambaIRは、画像復元タスクに線形に複雑な状態空間モデル(SSM)を導入する。
VmambaIRは、より少ない計算資源とパラメータで最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2024-03-18T02:38:55Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - DDet: Dual-path Dynamic Enhancement Network for Real-World Image
Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。
本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。
特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文 参考訳(メタデータ) (2020-02-25T18:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。