論文の概要: DDU-Net: Dual-Decoder-U-Net for Road Extraction Using High-Resolution
Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2201.06750v1
- Date: Tue, 18 Jan 2022 05:27:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 16:14:33.145298
- Title: DDU-Net: Dual-Decoder-U-Net for Road Extraction Using High-Resolution
Remote Sensing Images
- Title(参考訳): DDU-Net:高解像度リモートセンシング画像を用いた道路抽出のためのデュアルデコーダU-Net
- Authors: Ying Wang, Yuexing Peng, Xinran Liu, Wei Li, George C.
Alexandropoulos, Junchuan Yu, Daqing Ge, Wei Xiang
- Abstract要約: 本稿では,Dual-Decoder-U-Net(DDU-Net)と呼ばれる深層ニューラルネットワークモデルを提案する。
提案したモデルは、最先端のDenseUNet、DeepLabv3+、D-LinkNetの6.5%、MIoUの平均インターセクションでは3.3%、F1スコアでは4%、4.8%、それぞれ2.1%を上回っている。
- 参考スコア(独自算出の注目度): 19.07341794770722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting roads from high-resolution remote sensing images (HRSIs) is vital
in a wide variety of applications, such as autonomous driving, path planning,
and road navigation. Due to the long and thin shape as well as the shades
induced by vegetation and buildings, small-sized roads are more difficult to
discern. In order to improve the reliability and accuracy of small-sized road
extraction when roads of multiple sizes coexist in an HRSI, an enhanced deep
neural network model termed Dual-Decoder-U-Net (DDU-Net) is proposed in this
paper. Motivated by the U-Net model, a small decoder is added to form a
dual-decoder structure for more detailed features. In addition, we introduce
the dilated convolution attention module (DCAM) between the encoder and
decoders to increase the receptive field as well as to distill multi-scale
features through cascading dilated convolution and global average pooling. The
convolutional block attention module (CBAM) is also embedded in the parallel
dilated convolution and pooling branches to capture more attention-aware
features. Extensive experiments are conducted on the Massachusetts Roads
dataset with experimental results showing that the proposed model outperforms
the state-of-the-art DenseUNet, DeepLabv3+ and D-LinkNet by 6.5%, 3.3%, and
2.1% in the mean Intersection over Union (mIoU), and by 4%, 4.8%, and 3.1% in
the F1 score, respectively. Both ablation and heatmap analyses are presented to
validate the effectiveness of the proposed model.
- Abstract(参考訳): 高分解能リモートセンシング画像(hrsis)から道路を抽出することは、自動運転、経路計画、道路ナビゲーションなど、さまざまなアプリケーションにおいて不可欠である。
長くて細い形状と、植生や建物によって引き起こされる日陰のため、小型道路の識別は困難である。
本稿では,複数規模の道路がhrsiに共存している場合の小型道路抽出の信頼性と精度を向上させるため,デュアルデコーダu-net(ddu-net)と呼ばれる拡張深層ニューラルネットワークモデルを提案する。
u-netモデルに動機付けられた小さなデコーダが追加され、より詳細な機能のためにデュアルデコーダ構造が形成される。
さらに、エンコーダとデコーダの間に拡張畳み込みアテンションモジュール(dcam)を導入し、受容磁場を増加させ、拡張畳み込みとグローバル平均プーリングをカスケードすることでマルチスケールな特徴を蒸留する。
畳み込みブロックアテンションモジュール (CBAM) は、より注意を意識した特徴を捉えるために、並列拡張畳み込みとプーリングブランチに埋め込まれている。
実験の結果、マサチューセッツ・ローズのデータセットでは、提案されたモデルが最先端の密度指数、deeplabv3+、d-linknetを6.5%、miou平均交点で3.3%、d-linknetが2.1%、f1スコアで4%、4.8%、3.1%上回った。
本モデルの有効性を検証するため,アブレーションとヒートマップ解析を行った。
関連論文リスト
- UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - FusionRCNN: LiDAR-Camera Fusion for Two-stage 3D Object Detection [11.962073589763676]
既存の3D検出器は、2段階のパラダイムを採用することで精度を大幅に向上させる。
特に遠く離れた地点では、点雲の広がりは、LiDARのみの精製モジュールがオブジェクトを正確に認識し、配置することを困難にしている。
We propose a novel multi-modality two-stage approach called FusionRCNN, which is effective and efficient fuses point clouds and camera image in the Regions of Interest(RoI)。
FusionRCNNは、強力なSECONDベースラインを6.14%のmAPで大幅に改善し、競合する2段階アプローチよりも優れている。
論文 参考訳(メタデータ) (2022-09-22T02:07:25Z) - AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D
Object Detection [17.526914782562528]
我々はAutoAlign上に構築された高速で強力なマルチモーダル3D検出フレームワークであるAutoAlignV2を提案する。
我々の最良のモデルは、nuScenesテストのリーダーボード上で72.4 NDSに達し、新しい最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-07-21T06:17:23Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust
Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。
CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。
実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文 参考訳(メタデータ) (2021-11-30T04:30:10Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Spatio-Contextual Deep Network Based Multimodal Pedestrian Detection For
Autonomous Driving [1.2599533416395765]
本稿では,RGBと熱画像を用いた歩行者検出のためのエンドツーエンドマルチモーダル融合モデルを提案する。
その新しいディープネットワークアーキテクチャは、マルチモーダル入力を効率的に活用することができる。
それぞれの結果により,それぞれの最先端性能が向上した。
論文 参考訳(メタデータ) (2021-05-26T17:50:36Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z) - Binary DAD-Net: Binarized Driveable Area Detection Network for
Autonomous Driving [94.40107679615618]
本稿では,二項化駆動型領域検出ネットワーク(バイナリDAD-Net)を提案する。
エンコーダ、ボトルネック、デコーダ部分の2重みとアクティベーションのみを使用する。
パブリックデータセット上で、最先端のセマンティックセグメンテーションネットワークより優れています。
論文 参考訳(メタデータ) (2020-06-15T07:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。