論文の概要: UV-Mamba: A DCN-Enhanced State Space Model for Urban Village Boundary Identification in High-Resolution Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2409.03431v3
- Date: Mon, 9 Sep 2024 03:22:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 13:26:06.981985
- Title: UV-Mamba: A DCN-Enhanced State Space Model for Urban Village Boundary Identification in High-Resolution Remote Sensing Images
- Title(参考訳): UV-Mamba:高解像度リモートセンシング画像における都市境界同定のためのDCN強化状態空間モデル
- Authors: Lulin Li, Ben Chen, Xuechao Zou, Junliang Xing, Pin Tao,
- Abstract要約: 本稿では,高解像度リモートセンシング画像の正確な境界検出のための,UV-Mambaと呼ばれる新しい,効率的なニューラルネットワークモデルを提案する。
我々は,UV-Mambaが最先端の性能を達成することを示す2つの大規模データセットの実験を行った。
- 参考スコア(独自算出の注目度): 13.08353194673015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the diverse geographical environments, intricate landscapes, and high-density settlements, the automatic identification of urban village boundaries using remote sensing images remains a highly challenging task. This paper proposes a novel and efficient neural network model called UV-Mamba for accurate boundary detection in high-resolution remote sensing images. UV-Mamba mitigates the memory loss problem in lengthy sequence modeling, which arises in state space models with increasing image size, by incorporating deformable convolutions. Its architecture utilizes an encoder-decoder framework and includes an encoder with four deformable state space augmentation blocks for efficient multi-level semantic extraction and a decoder to integrate the extracted semantic information. We conducted experiments on two large datasets showing that UV-Mamba achieves state-of-the-art performance. Specifically, our model achieves 73.3% and 78.1% IoU on the Beijing and Xi'an datasets, respectively, representing improvements of 1.2% and 3.4% IoU over the previous best model while also being 6x faster in inference speed and 40x smaller in parameter count. Source code and pre-trained models are available at https://github.com/Devin-Egber/UV-Mamba.
- Abstract(参考訳): 多様な地理的環境、複雑な景観、高密度集落のため、リモートセンシング画像を用いた都市集落境界の自動識別は極めて困難な課題である。
本稿では,高解像度リモートセンシング画像の正確な境界検出のための,UV-Mambaと呼ばれる新しい,効率的なニューラルネットワークモデルを提案する。
UV-Mambaは、変形可能な畳み込みを組み込んで、画像サイズが増大する状態空間モデルで発生する長周期モデリングにおけるメモリ損失問題を緩和する。
そのアーキテクチャはエンコーダ・デコーダ・フレームワークを使用し、4つの変形可能な状態空間拡張ブロックを持つエンコーダと、抽出されたセマンティック情報を統合するデコーダを備えている。
我々は,UV-Mambaが最先端の性能を達成することを示す2つの大規模データセットの実験を行った。
具体的には、北京と西安のデータセットで73.3%と78.1%のIoUをそれぞれ達成し、前回のベストモデルよりも1.2%と3.4%のIoUの改善を示し、推論速度は6倍、パラメータ数は40倍に向上した。
ソースコードと事前訓練されたモデルはhttps://github.com/Devin-Egber/UV-Mamba.comで入手できる。
関連論文リスト
- Quanv4EO: Empowering Earth Observation by means of Quanvolutional Neural Networks [62.12107686529827]
本稿は、大量のリモートセンシングデータの処理において、量子コンピューティング技術を活用することへの大きなシフトを取り上げる。
提案したQuanv4EOモデルでは,多次元EOデータを前処理するための準進化法が導入された。
主要な知見は,提案モデルが画像分類の精度を維持するだけでなく,EOのユースケースの約5%の精度向上を図っていることを示唆している。
論文 参考訳(メタデータ) (2024-07-24T09:11:34Z) - Multimodal deep learning for mapping forest dominant height by fusing
GEDI with earth observation data [5.309673841813994]
そこで本稿では,マルチモーダルアテンションリモートセンシングネットワーク(MARSNet)と呼ばれる新しいディープラーニングフレームワークを提案する。
MARSNetは、マルチスケール特徴を抽出するリモートセンシングデータモダリティごとに別々のエンコーダと、特徴と推定高さを融合する共有デコーダから構成される。
本研究は,GEDIとSAR,受動光学画像とを併用した多モード深層学習手法の有効性を示す。
論文 参考訳(メタデータ) (2023-11-20T14:02:50Z) - Single-View Height Estimation with Conditional Diffusion Probabilistic
Models [1.8782750537161614]
我々は、マルコフ連鎖として光学画像とDSM画像の連成分布を学習するために、生成拡散モデルを訓練する。
これは、音源画像に条件付けされたままの復調スコアマッチング目標を最小化して、現実的な高解像度3次元表面を生成する。
本稿では,1枚のリモートセンシング画像から高度推定を行う条件付き拡散確率モデル(DDPM)を実験する。
論文 参考訳(メタデータ) (2023-04-26T00:37:05Z) - CLONeR: Camera-Lidar Fusion for Occupancy Grid-aided Neural
Representations [77.90883737693325]
本稿では,スパース入力センサビューから観測される大規模な屋外運転シーンをモデル化することで,NeRFを大幅に改善するCLONeRを提案する。
これは、NeRFフレームワーク内の占有率と色学習を、それぞれLiDARとカメラデータを用いてトレーニングされた個別のMulti-Layer Perceptron(MLP)に分離することで実現される。
さらに,NeRFモデルと平行に3D Occupancy Grid Maps(OGM)を構築する手法を提案し,この占有グリッドを利用して距離空間のレンダリングのために線に沿った点のサンプリングを改善する。
論文 参考訳(メタデータ) (2022-09-02T17:44:50Z) - RTMV: A Ray-Traced Multi-View Synthetic Dataset for Novel View Synthesis [104.53930611219654]
約2000の複雑なシーンからレンダリングされた300k画像からなる,新しいビュー合成のための大規模合成データセットを提案する。
データセットは、新しいビュー合成のための既存の合成データセットよりも桁違いに大きい。
高品質な3Dメッシュの4つのソースを使用して、私たちのデータセットのシーンは、カメラビュー、照明、形状、材料、テクスチャの難しいバリエーションを示します。
論文 参考訳(メタデータ) (2022-05-14T13:15:32Z) - Pyramid Grafting Network for One-Stage High Resolution Saliency
Detection [29.013012579688347]
我々は、異なる解像度画像から特徴を独立して抽出する、Praamid Grafting Network (PGNet) と呼ばれるワンステージフレームワークを提案する。
CNNブランチが壊れた詳細情報をよりホモロジーに組み合わせられるように、アテンションベースのクロスモデルグラフティングモジュール (CMGM) が提案されている。
我々は,4K-8K解像度で5,920個の画像を含む超高分解能塩度検出データセットUHRSDを新たに提供した。
論文 参考訳(メタデータ) (2022-04-11T12:22:21Z) - Sci-Net: a Scale Invariant Model for Building Detection from Aerial
Images [0.0]
本研究では,空間分解能の異なる空間画像に存在している建物を分割できるスケール不変ニューラルネットワーク(Sci-Net)を提案する。
具体的には,U-Netアーキテクチャを改良し,それを高密度なASPP(Atrous Space Pyramid Pooling)で融合し,微細なマルチスケール表現を抽出した。
論文 参考訳(メタデータ) (2021-11-12T16:45:20Z) - Low Light Image Enhancement via Global and Local Context Modeling [164.85287246243956]
低照度画像強調のためのコンテキスト認識ディープネットワークを導入。
まず、全空間領域上の補完的な手がかりを見つけるために空間相関をモデル化するグローバルコンテキストモジュールを特徴とする。
第二に、比較的大きな受容フィールドで局所的なコンテキストをキャプチャする密な残留ブロックを導入する。
論文 参考訳(メタデータ) (2021-01-04T09:40:54Z) - Road Segmentation for Remote Sensing Images using Adversarial Spatial
Pyramid Networks [28.32775611169636]
合成画像生成と道路分割に構造化領域適応を適用した新しいモデルを提案する。
マルチレベルの特徴マップから学び、特徴のセマンティクスを改善するために、新しいスケールワイズアーキテクチャが導入された。
我々のモデルは、14.89Mパラメータと86.78B FLOPを持つマサチューセッツのデータセット上で、最先端の78.86 IOUを達成し、4倍少ないFLOPを持つが、より高精度(+3.47% IOU)である。
論文 参考訳(メタデータ) (2020-08-10T11:00:19Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。