Fugu-MT 論文翻訳(概要): UV-Mamba: A DCN-Enhanced State Space Model for Urban Village Boundary Identification in High-Resolution Remote Sensing Images

論文の概要: UV-Mamba: A DCN-Enhanced State Space Model for Urban Village Boundary Identification in High-Resolution Remote Sensing Images

arxiv url: http://arxiv.org/abs/2409.03431v1
Date: Thu, 5 Sep 2024 11:23:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 21:00:20.717813
Title: UV-Mamba: A DCN-Enhanced State Space Model for Urban Village Boundary Identification in High-Resolution Remote Sensing Images
Title（参考訳）: UV-Mamba:高解像度リモートセンシング画像における都市境界同定のためのDCN強化状態空間モデル
Authors: Lulin Li, Ben Chen, Xuechao Zou, Junliang Xing, Pin Tao,
Abstract要約: 本稿では,高解像度リモートセンシング画像の正確な境界検出のための,UV-Mambaと呼ばれる新しい,効率的なニューラルネットワークモデルを提案する。 UV-Mambaは、画像サイズが増大する状態空間モデル(SSM)で生じる長いシーケンスモデリングにおけるメモリ損失問題を緩和する。北京と西安のデータセットを用いて実験を行い,UV-マンバが最先端の性能を発揮することを示す。
参考スコア（独自算出の注目度）: 13.08353194673015
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Owing to the diverse geographical environments, intricate landscapes, and high-density settlements, the automatic identification of urban village boundaries using remote sensing images is a highly challenging task. This paper proposes a novel and efficient neural network model called UV-Mamba for accurate boundary detection in high-resolution remote sensing images. UV-Mamba mitigates the memory loss problem in long sequence modeling, which arises in state space model (SSM) with increasing image size, by incorporating deformable convolutions (DCN). Its architecture utilizes an encoder-decoder framework, includes an encoder with four deformable state space augmentation (DSSA) blocks for efficient multi-level semantic extraction and a decoder to integrate the extracted semantic information. We conducted experiments on the Beijing and Xi'an datasets, and the results show that UV-Mamba achieves state-of-the-art performance. Specifically, our model achieves 73.3% and 78.1% IoU on the Beijing and Xi'an datasets, respectively, representing improvements of 1.2% and 3.4% IoU over the previous best model, while also being 6x faster in inference speed and 40x smaller in parameter count. Source code and pre-trained models are available in the supplementary material.
Abstract（参考訳）: 多様な地理的環境、複雑な景観、高密度集落のため、リモートセンシング画像を用いた都市集落境界の自動識別は極めて困難な課題である。本稿では,高解像度リモートセンシング画像の正確な境界検出のための,UV-Mambaと呼ばれる新しい,効率的なニューラルネットワークモデルを提案する。 UV-Mambaは、変形可能な畳み込み(DCN)を組み込んで、画像サイズを増大させる状態空間モデル(SSM)で生じる長いシーケンスモデリングにおけるメモリ損失問題を緩和する。そのアーキテクチャはエンコーダ・デコーダフレームワークを使用し、4つの変形可能な状態空間拡張(DSSA)ブロックを持つエンコーダと、抽出されたセマンティック情報を統合するデコーダを備えている。北京と西安のデータセットを用いて実験を行い,UV-マンバが最先端の性能を発揮することを示す。具体的には、北京と西安のデータセットで73.3%と78.1%のIoUをそれぞれ達成し、前回のベストモデルよりも1.2%と3.4%のIoUの改善を示し、推論速度は6倍、パラメータ数は40倍に向上した。ソースコードと事前訓練されたモデルは補足資料で利用可能である。

関連論文リスト

TFDM: Time-Variant Frequency-Based Point Cloud Diffusion with Mamba [20.941775037488863]
拡散モデルは現在、様々な生成タスクに対して印象的なパフォーマンスを示している。画像拡散に関する最近の研究は,マンバ(状態空間モデル)の強みを強調している本稿では,2つの遅延Mambaブロック(DM-Block)と時間変動周波数エンコーダ(TF-Encoder)を含む新しい拡散フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-17T10:00:14Z)
LapGSR: Laplacian Reconstructive Network for Guided Thermal Super-Resolution [1.747623282473278]
複数のモダリティを融合して高解像度の画像を生成するには、数百万のパラメータと重い計算負荷を持つ高密度モデルが必要となることが多い。熱分解能誘導のためのラプラシア像ピラミッドを用いたマルチモーダル・軽量・生成モデルであるLapGSRを提案する。
論文参考訳（メタデータ） (2024-11-12T12:23:19Z)
bit2bit: 1-bit quanta video reconstruction via self-supervised photon prediction [57.199618102578576]
疎二分量時間画像データから高画質の画像スタックを元の解像度で再構成する新しい方法であるbit2bitを提案する。 Poisson denoisingの最近の研究に触発されて、スパースバイナリ光子データから高密度な画像列を生成するアルゴリズムを開発した。本研究では,様々な課題の画像条件下でのSPADの高速映像を多種多種に含む新しいデータセットを提案する。
論文参考訳（メタデータ） (2024-10-30T17:30:35Z)
LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation [2.0901574458380403]
医用画像分割のための軽量だが効率的な新しいモデル LiteNeXt を提案する。このモデルは、少量のパラメータ (0.71M) とギガ浮動小数点演算 (0.42) でスクラッチから訓練されている。 Data Science Bowls、GlaS、ISIC2018、PH2、Sunnybrook、Lung X-rayといった公開データセットの実験は有望な結果を示している。
論文参考訳（メタデータ） (2024-04-04T01:59:19Z)
Multimodal deep learning for mapping forest dominant height by fusing GEDI with earth observation data [5.309673841813994]
そこで本稿では,マルチモーダルアテンションリモートセンシングネットワーク(MARSNet)と呼ばれる新しいディープラーニングフレームワークを提案する。 MARSNetは、マルチスケール特徴を抽出するリモートセンシングデータモダリティごとに別々のエンコーダと、特徴と推定高さを融合する共有デコーダから構成される。本研究は,GEDIとSAR,受動光学画像とを併用した多モード深層学習手法の有効性を示す。
論文参考訳（メタデータ） (2023-11-20T14:02:50Z)
LEFormer: A Hybrid CNN-Transformer Architecture for Accurate Lake Extraction from Remote Sensing Imagery [21.376854477468793]
本稿では, LEFormer と呼ばれるCNN-Transformer アーキテクチャを用いて, 正確な湖沼抽出を行う。 LeFormerにはCNNエンコーダ、Transformerエンコーダ、クロスエンコーダの3つの主要なモジュールが含まれている。 LeFormerは、Surface WaterとQinghai-Tibet Plateau Lakeデータセットの最先端のパフォーマンスと効率を一貫して達成している。
論文参考訳（メタデータ） (2023-08-08T17:01:33Z)
High Fidelity Image Synthesis With Deep VAEs In Latent Space [0.0]
階層的変動オートエンコーダ(VAE)を用いた高解像度マルチモーダルデータセットに高速でリアルな画像生成を提案する。この2段階のセットアップでは、オートエンコーダがイメージをセマンティックな特徴に圧縮し、深いVAEでモデル化する。我々は、BigGANに匹敵するImageNet-256データセット上で、FID9.34を達成する2段階アプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-03-23T23:45:19Z)
Unifying Voxel-based Representation with Transformer for 3D Object Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。 UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文参考訳（メタデータ） (2022-06-01T17:02:40Z)
RTMV: A Ray-Traced Multi-View Synthetic Dataset for Novel View Synthesis [104.53930611219654]
約2000の複雑なシーンからレンダリングされた300k画像からなる,新しいビュー合成のための大規模合成データセットを提案する。データセットは、新しいビュー合成のための既存の合成データセットよりも桁違いに大きい。高品質な3Dメッシュの4つのソースを使用して、私たちのデータセットのシーンは、カメラビュー、照明、形状、材料、テクスチャの難しいバリエーションを示します。
論文参考訳（メタデータ） (2022-05-14T13:15:32Z)
Pyramid Grafting Network for One-Stage High Resolution Saliency Detection [29.013012579688347]
我々は、異なる解像度画像から特徴を独立して抽出する、Praamid Grafting Network (PGNet) と呼ばれるワンステージフレームワークを提案する。 CNNブランチが壊れた詳細情報をよりホモロジーに組み合わせられるように、アテンションベースのクロスモデルグラフティングモジュール (CMGM) が提案されている。我々は,4K-8K解像度で5,920個の画像を含む超高分解能塩度検出データセットUHRSDを新たに提供した。
論文参考訳（メタデータ） (2022-04-11T12:22:21Z)
RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-09-15T12:31:27Z)
Low Light Image Enhancement via Global and Local Context Modeling [164.85287246243956]
低照度画像強調のためのコンテキスト認識ディープネットワークを導入。まず、全空間領域上の補完的な手がかりを見つけるために空間相関をモデル化するグローバルコンテキストモジュールを特徴とする。第二に、比較的大きな受容フィールドで局所的なコンテキストをキャプチャする密な残留ブロックを導入する。
論文参考訳（メタデータ） (2021-01-04T09:40:54Z)
ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。 ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文参考訳（メタデータ） (2020-03-01T17:18:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。