論文の概要: UV-Mamba: A DCN-Enhanced State Space Model for Urban Village Boundary Identification in High-Resolution Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2409.03431v3
- Date: Mon, 9 Sep 2024 03:22:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 13:26:06.981985
- Title: UV-Mamba: A DCN-Enhanced State Space Model for Urban Village Boundary Identification in High-Resolution Remote Sensing Images
- Title(参考訳): UV-Mamba:高解像度リモートセンシング画像における都市境界同定のためのDCN強化状態空間モデル
- Authors: Lulin Li, Ben Chen, Xuechao Zou, Junliang Xing, Pin Tao,
- Abstract要約: 本稿では,高解像度リモートセンシング画像の正確な境界検出のための,UV-Mambaと呼ばれる新しい,効率的なニューラルネットワークモデルを提案する。
我々は,UV-Mambaが最先端の性能を達成することを示す2つの大規模データセットの実験を行った。
- 参考スコア(独自算出の注目度): 13.08353194673015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the diverse geographical environments, intricate landscapes, and high-density settlements, the automatic identification of urban village boundaries using remote sensing images remains a highly challenging task. This paper proposes a novel and efficient neural network model called UV-Mamba for accurate boundary detection in high-resolution remote sensing images. UV-Mamba mitigates the memory loss problem in lengthy sequence modeling, which arises in state space models with increasing image size, by incorporating deformable convolutions. Its architecture utilizes an encoder-decoder framework and includes an encoder with four deformable state space augmentation blocks for efficient multi-level semantic extraction and a decoder to integrate the extracted semantic information. We conducted experiments on two large datasets showing that UV-Mamba achieves state-of-the-art performance. Specifically, our model achieves 73.3% and 78.1% IoU on the Beijing and Xi'an datasets, respectively, representing improvements of 1.2% and 3.4% IoU over the previous best model while also being 6x faster in inference speed and 40x smaller in parameter count. Source code and pre-trained models are available at https://github.com/Devin-Egber/UV-Mamba.
- Abstract(参考訳): 多様な地理的環境、複雑な景観、高密度集落のため、リモートセンシング画像を用いた都市集落境界の自動識別は極めて困難な課題である。
本稿では,高解像度リモートセンシング画像の正確な境界検出のための,UV-Mambaと呼ばれる新しい,効率的なニューラルネットワークモデルを提案する。
UV-Mambaは、変形可能な畳み込みを組み込んで、画像サイズが増大する状態空間モデルで発生する長周期モデリングにおけるメモリ損失問題を緩和する。
そのアーキテクチャはエンコーダ・デコーダ・フレームワークを使用し、4つの変形可能な状態空間拡張ブロックを持つエンコーダと、抽出されたセマンティック情報を統合するデコーダを備えている。
我々は,UV-Mambaが最先端の性能を達成することを示す2つの大規模データセットの実験を行った。
具体的には、北京と西安のデータセットで73.3%と78.1%のIoUをそれぞれ達成し、前回のベストモデルよりも1.2%と3.4%のIoUの改善を示し、推論速度は6倍、パラメータ数は40倍に向上した。
ソースコードと事前訓練されたモデルはhttps://github.com/Devin-Egber/UV-Mamba.comで入手できる。
関連論文リスト
- LapGSR: Laplacian Reconstructive Network for Guided Thermal Super-Resolution [1.747623282473278]
複数のモダリティを融合して高解像度の画像を生成するには、数百万のパラメータと重い計算負荷を持つ高密度モデルが必要となることが多い。
熱分解能誘導のためのラプラシア像ピラミッドを用いたマルチモーダル・軽量・生成モデルであるLapGSRを提案する。
論文 参考訳(メタデータ) (2024-11-12T12:23:19Z) - bit2bit: 1-bit quanta video reconstruction via self-supervised photon prediction [57.199618102578576]
疎二分量時間画像データから高画質の画像スタックを元の解像度で再構成する新しい方法であるbit2bitを提案する。
Poisson denoisingの最近の研究に触発されて、スパースバイナリ光子データから高密度な画像列を生成するアルゴリズムを開発した。
本研究では,様々な課題の画像条件下でのSPADの高速映像を多種多種に含む新しいデータセットを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:30:35Z) - Multimodal deep learning for mapping forest dominant height by fusing
GEDI with earth observation data [5.309673841813994]
そこで本稿では,マルチモーダルアテンションリモートセンシングネットワーク(MARSNet)と呼ばれる新しいディープラーニングフレームワークを提案する。
MARSNetは、マルチスケール特徴を抽出するリモートセンシングデータモダリティごとに別々のエンコーダと、特徴と推定高さを融合する共有デコーダから構成される。
本研究は,GEDIとSAR,受動光学画像とを併用した多モード深層学習手法の有効性を示す。
論文 参考訳(メタデータ) (2023-11-20T14:02:50Z) - LEFormer: A Hybrid CNN-Transformer Architecture for Accurate Lake
Extraction from Remote Sensing Imagery [21.376854477468793]
本稿では, LEFormer と呼ばれるCNN-Transformer アーキテクチャを用いて, 正確な湖沼抽出を行う。
LeFormerにはCNNエンコーダ、Transformerエンコーダ、クロスエンコーダの3つの主要なモジュールが含まれている。
LeFormerは、Surface WaterとQinghai-Tibet Plateau Lakeデータセットの最先端のパフォーマンスと効率を一貫して達成している。
論文 参考訳(メタデータ) (2023-08-08T17:01:33Z) - High Fidelity Image Synthesis With Deep VAEs In Latent Space [0.0]
階層的変動オートエンコーダ(VAE)を用いた高解像度マルチモーダルデータセットに高速でリアルな画像生成を提案する。
この2段階のセットアップでは、オートエンコーダがイメージをセマンティックな特徴に圧縮し、深いVAEでモデル化する。
我々は、BigGANに匹敵するImageNet-256データセット上で、FID9.34を達成する2段階アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-23T23:45:19Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - RTMV: A Ray-Traced Multi-View Synthetic Dataset for Novel View Synthesis [104.53930611219654]
約2000の複雑なシーンからレンダリングされた300k画像からなる,新しいビュー合成のための大規模合成データセットを提案する。
データセットは、新しいビュー合成のための既存の合成データセットよりも桁違いに大きい。
高品質な3Dメッシュの4つのソースを使用して、私たちのデータセットのシーンは、カメラビュー、照明、形状、材料、テクスチャの難しいバリエーションを示します。
論文 参考訳(メタデータ) (2022-05-14T13:15:32Z) - Pyramid Grafting Network for One-Stage High Resolution Saliency
Detection [29.013012579688347]
我々は、異なる解像度画像から特徴を独立して抽出する、Praamid Grafting Network (PGNet) と呼ばれるワンステージフレームワークを提案する。
CNNブランチが壊れた詳細情報をよりホモロジーに組み合わせられるように、アテンションベースのクロスモデルグラフティングモジュール (CMGM) が提案されている。
我々は,4K-8K解像度で5,920個の画像を含む超高分解能塩度検出データセットUHRSDを新たに提供した。
論文 参考訳(メタデータ) (2022-04-11T12:22:21Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Low Light Image Enhancement via Global and Local Context Modeling [164.85287246243956]
低照度画像強調のためのコンテキスト認識ディープネットワークを導入。
まず、全空間領域上の補完的な手がかりを見つけるために空間相関をモデル化するグローバルコンテキストモジュールを特徴とする。
第二に、比較的大きな受容フィールドで局所的なコンテキストをキャプチャする密な残留ブロックを導入する。
論文 参考訳(メタデータ) (2021-01-04T09:40:54Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。