論文の概要: LOANet: A Lightweight Network Using Object Attention for Extracting
Buildings and Roads from UAV Aerial Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2212.08490v6
- Date: Thu, 6 Jul 2023 12:06:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 18:08:47.982441
- Title: LOANet: A Lightweight Network Using Object Attention for Extracting
Buildings and Roads from UAV Aerial Remote Sensing Images
- Title(参考訳): LOANet:UAV空中リモートセンシング画像から建物や道路を抽出するオブジェクト注意を用いた軽量ネットワーク
- Authors: Xiaoxiang Han, Yiman Liu, Gang Liu, Yuanjie Lin, Qiaohong Liu
- Abstract要約: UAV空中リモートセンシング画像からの建物・道路用オブジェクト注意(LOANet)を用いた軽量ネットワークを提案する。
提案するネットワークは,Densely Connected Network (LDCNet) をエンコーダとして開発するエンコーダデコーダアーキテクチャを採用している。
提案した基本モデルは、1.4Mパラメータと5.48G浮動小数点演算しか持たないデータセットでよく機能する。
- 参考スコア(独自算出の注目度): 1.875899282042793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation for extracting buildings and roads from uncrewed aerial
vehicle (UAV) remote sensing images by deep learning becomes a more efficient
and convenient method than traditional manual segmentation in surveying and
mapping fields. In order to make the model lightweight and improve the model
accuracy, a Lightweight Network Using Object Attention (LOANet) for Buildings
and Roads from UAV Aerial Remote Sensing Images is proposed. The proposed
network adopts an encoder-decoder architecture in which a Lightweight Densely
Connected Network (LDCNet) is developed as the encoder. In the decoder part,
the dual multi-scale context modules which consist of the Atrous Spatial
Pyramid Pooling module (ASPP) and the Object Attention Module (OAM) are
designed to capture more context information from feature maps of UAV remote
sensing images. Between ASPP and OAM, a Feature Pyramid Network (FPN) module is
used to fuse multi-scale features extracted from ASPP. A private dataset of
remote sensing images taken by UAV which contains 2431 training sets, 945
validation sets, and 475 test sets is constructed. The proposed basic model
performs well on this dataset, with only 1.4M parameters and 5.48G floating
point operations (FLOPs), achieving excellent mean Intersection-over-Union
(mIoU). Further experiments on the publicly available LoveDA and CITY-OSM
datasets have been conducted to further validate the effectiveness of the
proposed basic and large model, and outstanding mIoU results have been
achieved. All codes are available on https://github.com/GtLinyer/LOANet.
- Abstract(参考訳): 深層学習による無人航空機(uav)リモートセンシング画像から建物や道路を抽出するセマンティックセグメンテーションは、測量やマッピングの分野で従来の手動セグメンテーションよりも効率的で便利である。
モデルを軽量化し,モデルの精度を向上させるために,uav空中リモートセンシング画像から建物や道路にオブジェクト・アテンション(loanet)を用いた軽量ネットワークを提案する。
提案するネットワークは,軽量Densely Connected Network (LDCNet) をエンコーダとして開発したエンコーダデコーダアーキテクチャを採用している。
復号器部では、Atrous Space Pyramid Pooling Module (ASPP) と Object Attention Module (OAM) から構成される2つのマルチスケールコンテキストモジュールが、UAVリモートセンシング画像の特徴マップからより多くのコンテキスト情報を取得するように設計されている。
ASPPとOAMの間には、ASPPから抽出したマルチスケール機能を融合するために、FPN(Feature Pyramid Network)モジュールが使用されている。
2431のトレーニングセット、945の検証セット、および475のテストセットを含むUAVが撮影するリモートセンシング画像のプライベートデータセットを構築する。
提案する基本モデルは1.4mパラメータと5.48g浮動小数点演算(flops)しか持たず、優れた平均交叉結合(miou)を達成している。
LoveDAとCITY-OSMデータセットのさらなる実験を行い、提案した基本モデルと大規模モデルの有効性をさらに検証し、優れたmIoU結果を得た。
すべてのコードはhttps://github.com/GtLinyer/LOANetで入手できる。
関連論文リスト
- Semantic Segmentation of Unmanned Aerial Vehicle Remote Sensing Images using SegFormer [0.14999444543328289]
本稿では,UAV画像のセマンティックセグメンテーションのためのセマンティックセグメンテーションフレームワークであるSegFormerの有効性と効率を評価する。
SegFormerの変種は、リアルタイム(B0)から高性能(B5)モデルまで、セマンティックセグメンテーションタスクに適したUAVidデータセットを使用して評価される。
実験結果は、モデルの性能をベンチマークデータセットで示し、多様なUAVシナリオにおけるオブジェクトとランドカバーの特徴を正確に記述する能力を強調した。
論文 参考訳(メタデータ) (2024-10-01T21:40:15Z) - IRSAM: Advancing Segment Anything Model for Infrared Small Target Detection [55.554484379021524]
Infrared Small Target Detection (IRSTD) タスクは、自然画像と赤外線画像の間に顕著な領域ギャップがあるため、満足度の高い性能を達成するには不十分である。
IRSTDのためのIRSAMモデルを提案する。これはSAMのエンコーダデコーダアーキテクチャを改善し、赤外線小物体の特徴表現をより良く学習する。
論文 参考訳(メタデータ) (2024-07-10T10:17:57Z) - HCF-Net: Hierarchical Context Fusion Network for Infrared Small Object Detection [16.92362922379821]
赤外線小物体検出性能を向上させるための深層学習法を提案する。
本発明の方法は、PPAモジュール、DASIモジュール、MDCRモジュールを含む。
論文 参考訳(メタデータ) (2024-03-16T02:45:42Z) - Lightweight Salient Object Detection in Optical Remote-Sensing Images
via Semantic Matching and Edge Alignment [61.45639694373033]
セマンティックマッチングとエッジアライメントに基づく光リモートセンシング画像(ORSI-SOD)のための新しい軽量ネットワークSeaNetを提案する。
具体的には、機能抽出のための軽量MobileNet-V2、高レベルの機能のための動的セマンティックマッチングモジュール(DSMM)、推論のためのポータブルデコーダが含まれる。
論文 参考訳(メタデータ) (2023-01-07T04:33:51Z) - Multi-Modal Domain Fusion for Multi-modal Aerial View Object
Classification [4.438928487047433]
マルチモーダルデータから領域不変性を学習するために,新しいマルチモーダルドメイン融合(MDF)ネットワークを提案する。
ネットワークはTrack-1で25.3%、Track-2でトップ5で34.26%の精度でトップ10のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-12-14T05:14:02Z) - Deep Learning Computer Vision Algorithms for Real-time UAVs On-board
Camera Image Processing [77.34726150561087]
本稿では,ディープラーニングに基づくコンピュータビジョンアルゴリズムを用いて,小型UAVのリアルタイムセンサ処理を実現する方法について述べる。
すべてのアルゴリズムは、ディープニューラルネットワークに基づく最先端の画像処理手法を用いて開発されている。
論文 参考訳(メタデータ) (2022-11-02T11:10:42Z) - Enhanced Object Detection in Floor-plan through Super Resolution [1.9599274203282302]
情報モデリングソフトウェアの構築は、スケーラブルなベクトルフォーマットを使用してフロアプランの柔軟な設計を可能にする。
フロアプラン画像から完全アノテートベクター画像への変換は、コンピュータビジョンによって実現されたプロセスである。
Super-Resolution (SR) はコンピュータビジョンにおいて確立されたCNNベースのネットワークであり、低解像度画像を高解像度に変換するために使用される。
論文 参考訳(メタデータ) (2021-12-18T05:06:22Z) - DPNET: Dual-Path Network for Efficient Object Detectioj with Lightweight
Self-Attention [16.13989397708127]
DPNetは、軽量な自己注意を伴う効率的なオブジェクト検出のためのデュアルパスネットワークである。
COCOデータセットでは29.0%のAPを達成し、320x320の画像に対して1.14 GFLOPと2.27Mモデルサイズしか達成していない。
論文 参考訳(メタデータ) (2021-10-31T13:38:16Z) - Anti-UAV: A Large Multi-Modal Benchmark for UAV Tracking [59.06167734555191]
Unmanned Aerial Vehicle (UAV)は、商業とレクリエーションの両方に多くの応用を提供している。
我々は、UAVを追跡し、位置や軌道などの豊富な情報を提供するという課題を考察する。
300以上のビデオペアが580k以上の手動で注釈付きバウンディングボックスを含むデータセット、Anti-UAVを提案します。
論文 参考訳(メタデータ) (2021-01-21T07:00:15Z) - Suppress and Balance: A Simple Gated Network for Salient Object
Detection [89.88222217065858]
両問題を同時に解くための単純なゲートネットワーク(GateNet)を提案する。
多レベルゲートユニットの助けを借りて、エンコーダからの貴重なコンテキスト情報をデコーダに最適に送信することができる。
さらに,提案したFold-ASPP操作(Fold-ASPP)に基づくアトラス空間ピラミッドプーリングを用いて,様々なスケールのサリアンオブジェクトを正確に位置決めする。
論文 参考訳(メタデータ) (2020-07-16T02:00:53Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。