論文の概要: LOANet: A Lightweight Network Using Object Attention for Extracting
Buildings and Roads from UAV Aerial Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2212.08490v5
- Date: Tue, 4 Apr 2023 15:22:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 18:18:34.697320
- Title: LOANet: A Lightweight Network Using Object Attention for Extracting
Buildings and Roads from UAV Aerial Remote Sensing Images
- Title(参考訳): LOANet:UAV空中リモートセンシング画像から建物や道路を抽出するオブジェクト注意を用いた軽量ネットワーク
- Authors: Xiaoxiang Han, Yiman Liu, Gang Liu, Yuanjie Lin, Qiaohong Liu
- Abstract要約: 建物・道路用軽量ネットワーク(LOANet)を提案する。
提案するネットワークは,Densely Connected Network (LDCNet) をエンコーダとして開発するエンコーダデコーダアーキテクチャを採用している。
提案モデルは、1.4Mパラメータと5.48G浮動小数点演算しか持たないデータセットでよく機能する。
- 参考スコア(独自算出の注目度): 1.875899282042793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation for extracting buildings and roads, from unmanned
aerial vehicle (UAV) remote sensing images by deep learning becomes a more
efficient and convenient method than traditional manual segmentation in
surveying and mapping field. In order to make the model lightweight and improve
the model accuracy, A Lightweight Network Using Object Attention (LOANet) for
Buildings and Roads from UAV Aerial Remote Sensing Images is proposed. The
proposed network adopts an encoder-decoder architecture in which a Lightweight
Densely Connected Network (LDCNet) is developed as the encoder. In the decoder
part, the dual multi-scale context modules which consist of the Atrous Spatial
Pyramid Pooling module (ASPP) and the Object Attention Module (OAM) are
designed to capture more context information from feature maps of UAV remote
sensing images. Between ASPP and OAM, a Feature Pyramid Network (FPN) module is
used to and fuse multi-scale features extracting from ASPP. A private dataset
of remote sensing images taken by UAV which contains 2431 training sets, 945
validation sets, and 475 test sets is constructed. The proposed model performs
well on this dataset, with only 1.4M parameters and 5.48G floating-point
operations (FLOPs), achieving a mean intersection-over-union ratio (mIoU) of
71.12%. More extensive experiments on the public LoveDA dataset and CITY-OSM
dataset to further verify the effectiveness of the proposed model with
excellent results on mIoU of 65.27% and 74.39%, respectively.
- Abstract(参考訳): 深層学習による無人航空機(uav)リモートセンシング画像から建物や道路を抽出するセマンティックセグメンテーションは,測量・マッピング分野における従来の手動セグメンテーションよりも効率的で便利である。
モデルを軽量化し,モデルの精度を向上させるために,uav空中リモートセンシング画像から建物や道路にオブジェクト・アテンション(loanet)を用いた軽量ネットワークを提案する。
提案するネットワークは,軽量Densely Connected Network (LDCNet) をエンコーダとして開発したエンコーダデコーダアーキテクチャを採用している。
復号器部では、Atrous Space Pyramid Pooling Module (ASPP) と Object Attention Module (OAM) から構成される2つのマルチスケールコンテキストモジュールが、UAVリモートセンシング画像の特徴マップからより多くのコンテキスト情報を取得するように設計されている。
ASPPとOAMの間には、ASPPから抽出したマルチスケール機能にFPN(Feature Pyramid Network)モジュールが使用される。
2431のトレーニングセット、945の検証セット、および475のテストセットを含むUAVが撮影するリモートセンシング画像のプライベートデータセットを構築する。
提案したモデルは、1.4Mパラメータと5.48G浮動小数点演算(FLOPs)のみで、平均交叉対合同比(mIoU)は71.12%である。
パブリックなLoveDAデータセットとCITY-OSMデータセットに関するより広範な実験により、提案されたモデルの有効性をそれぞれ65.27%と74.39%のmIoUで検証した。
関連論文リスト
- Semantic Segmentation of Unmanned Aerial Vehicle Remote Sensing Images using SegFormer [0.14999444543328289]
本稿では,UAV画像のセマンティックセグメンテーションのためのセマンティックセグメンテーションフレームワークであるSegFormerの有効性と効率を評価する。
SegFormerの変種は、リアルタイム(B0)から高性能(B5)モデルまで、セマンティックセグメンテーションタスクに適したUAVidデータセットを使用して評価される。
実験結果は、モデルの性能をベンチマークデータセットで示し、多様なUAVシナリオにおけるオブジェクトとランドカバーの特徴を正確に記述する能力を強調した。
論文 参考訳(メタデータ) (2024-10-01T21:40:15Z) - IRSAM: Advancing Segment Anything Model for Infrared Small Target Detection [55.554484379021524]
Infrared Small Target Detection (IRSTD) タスクは、自然画像と赤外線画像の間に顕著な領域ギャップがあるため、満足度の高い性能を達成するには不十分である。
IRSTDのためのIRSAMモデルを提案する。これはSAMのエンコーダデコーダアーキテクチャを改善し、赤外線小物体の特徴表現をより良く学習する。
論文 参考訳(メタデータ) (2024-07-10T10:17:57Z) - HCF-Net: Hierarchical Context Fusion Network for Infrared Small Object Detection [16.92362922379821]
赤外線小物体検出性能を向上させるための深層学習法を提案する。
本発明の方法は、PPAモジュール、DASIモジュール、MDCRモジュールを含む。
論文 参考訳(メタデータ) (2024-03-16T02:45:42Z) - Lightweight Salient Object Detection in Optical Remote-Sensing Images
via Semantic Matching and Edge Alignment [61.45639694373033]
セマンティックマッチングとエッジアライメントに基づく光リモートセンシング画像(ORSI-SOD)のための新しい軽量ネットワークSeaNetを提案する。
具体的には、機能抽出のための軽量MobileNet-V2、高レベルの機能のための動的セマンティックマッチングモジュール(DSMM)、推論のためのポータブルデコーダが含まれる。
論文 参考訳(メタデータ) (2023-01-07T04:33:51Z) - Multi-Modal Domain Fusion for Multi-modal Aerial View Object
Classification [4.438928487047433]
マルチモーダルデータから領域不変性を学習するために,新しいマルチモーダルドメイン融合(MDF)ネットワークを提案する。
ネットワークはTrack-1で25.3%、Track-2でトップ5で34.26%の精度でトップ10のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-12-14T05:14:02Z) - Deep Learning Computer Vision Algorithms for Real-time UAVs On-board
Camera Image Processing [77.34726150561087]
本稿では,ディープラーニングに基づくコンピュータビジョンアルゴリズムを用いて,小型UAVのリアルタイムセンサ処理を実現する方法について述べる。
すべてのアルゴリズムは、ディープニューラルネットワークに基づく最先端の画像処理手法を用いて開発されている。
論文 参考訳(メタデータ) (2022-11-02T11:10:42Z) - Enhanced Object Detection in Floor-plan through Super Resolution [1.9599274203282302]
情報モデリングソフトウェアの構築は、スケーラブルなベクトルフォーマットを使用してフロアプランの柔軟な設計を可能にする。
フロアプラン画像から完全アノテートベクター画像への変換は、コンピュータビジョンによって実現されたプロセスである。
Super-Resolution (SR) はコンピュータビジョンにおいて確立されたCNNベースのネットワークであり、低解像度画像を高解像度に変換するために使用される。
論文 参考訳(メタデータ) (2021-12-18T05:06:22Z) - DPNET: Dual-Path Network for Efficient Object Detectioj with Lightweight
Self-Attention [16.13989397708127]
DPNetは、軽量な自己注意を伴う効率的なオブジェクト検出のためのデュアルパスネットワークである。
COCOデータセットでは29.0%のAPを達成し、320x320の画像に対して1.14 GFLOPと2.27Mモデルサイズしか達成していない。
論文 参考訳(メタデータ) (2021-10-31T13:38:16Z) - Anti-UAV: A Large Multi-Modal Benchmark for UAV Tracking [59.06167734555191]
Unmanned Aerial Vehicle (UAV)は、商業とレクリエーションの両方に多くの応用を提供している。
我々は、UAVを追跡し、位置や軌道などの豊富な情報を提供するという課題を考察する。
300以上のビデオペアが580k以上の手動で注釈付きバウンディングボックスを含むデータセット、Anti-UAVを提案します。
論文 参考訳(メタデータ) (2021-01-21T07:00:15Z) - Suppress and Balance: A Simple Gated Network for Salient Object
Detection [89.88222217065858]
両問題を同時に解くための単純なゲートネットワーク(GateNet)を提案する。
多レベルゲートユニットの助けを借りて、エンコーダからの貴重なコンテキスト情報をデコーダに最適に送信することができる。
さらに,提案したFold-ASPP操作(Fold-ASPP)に基づくアトラス空間ピラミッドプーリングを用いて,様々なスケールのサリアンオブジェクトを正確に位置決めする。
論文 参考訳(メタデータ) (2020-07-16T02:00:53Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。