論文の概要: UAVSNet: An Encoder-Decoder Architecture based UAV Image Segmentation
Network
- arxiv url: http://arxiv.org/abs/2302.13084v1
- Date: Sat, 25 Feb 2023 14:09:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 19:08:11.479416
- Title: UAVSNet: An Encoder-Decoder Architecture based UAV Image Segmentation
Network
- Title(参考訳): UAVSNet: エンコーダデコーダアーキテクチャに基づくUAVイメージセグメンテーションネットワーク
- Authors: Satyawant Kumar, Abhishek Kumar, Dong-Gyu Lee
- Abstract要約: 都市空域の正確なセマンティックセグメンテーションのためのUAVネットワーク(UAVSNet)を提案する。
マルチスケールの特徴表現を使用するトランスフォーマーベースのエンコーダデコーダフレームワークである。
提案手法は,64.35%のmIoUと74.64%のmIoUをそれぞれ達成し,UAVidとUrbanドローンのデータセットに対するネットワークの有効性を示す。
- 参考スコア(独自算出の注目度): 17.125512418001236
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Due to an increased application of Unmanned Aerial Vehicle (UAV) devices like
drones, segmentation of aerial images for urban scene understanding has brought
a new research opportunity. Aerial images own so much variability in scale,
object appearance, and complex background. The task of semantic segmentation
when capturing the underlying features in a global and local context for the
UAV images becomes challenging. In this work, we proposed a UAV Segmentation
Network (UAVSNet) for precise semantic segmentation of urban aerial scenes. It
is a transformer-based encoder-decoder framework that uses multi-scale feature
representations. The UAVSNet exploits the advantage of a self-attention-based
transformer framework and convolution mechanisms in capturing the global and
local context details. This helps the network precisely capture the inherent
feature of the aerial images and generate overall semantically rich feature
representation. The proposed Overlap Token Embedding (OTE) module generates
multi-scale features. A decoder network is proposed, which further processes
these features using a multi-scale feature fusion policy to enhance the feature
representation ability of the network. We show the effectiveness of the
proposed network on UAVid and Urban drone datasets by achieving mIoU of 64.35%
and 74.64%, respectively.
- Abstract(参考訳): 無人航空機(UAV)のドローンへの応用が増加しているため、都市景観理解のための空中画像のセグメンテーションが新たな研究機会となった。
空中画像は、スケール、オブジェクトの外観、複雑な背景において多くのバリエーションを持っている。
UAV画像のグローバルおよびローカルコンテキストにおける特徴の抽出におけるセマンティックセグメンテーションの課題は困難である。
本研究では,都市空域の正確なセマンティックセグメンテーションのためのUAVセグメンテーションネットワーク(UAVSNet)を提案する。
マルチスケールの特徴表現を使用するトランスフォーマーベースのエンコーダデコーダフレームワークである。
UAVSNetは、グローバルおよびローカルコンテキストの詳細をキャプチャする際の自己アテンションベースのトランスフォーマーフレームワークと畳み込み機構の利点を利用する。
これにより、ネットワークは航空画像の本質的特徴を正確に捉え、全体的な意味的にリッチな特徴表現を生成する。
提案するOverlap Token Embedding (OTE)モジュールは,マルチスケール機能を生成する。
ネットワークの特徴表現能力を高めるために,マルチスケール機能融合ポリシーを用いて,これらの特徴をさらに処理するデコーダネットワークを提案する。
提案手法は,64.35%のmIoUと74.64%のmIoUをそれぞれ達成し,UAVidとUrbanドローンのデータセットに対するネットワークの有効性を示す。
関連論文リスト
- LKASeg:Remote-Sensing Image Semantic Segmentation with Large Kernel Attention and Full-Scale Skip Connections [27.473573286685063]
LKASegというリモートセンシング画像セマンティックセマンティックネットワークを提案する。
LKASegはLarge Kernel Attention(LSKA)とFull-Scale Skip Connection(FSC)を組み合わせる
ISPRSのベイヒンゲンデータセットでは、mF1とmIoUのスコアは90.33%と82.77%に達した。
論文 参考訳(メタデータ) (2024-10-14T12:25:48Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - TransY-Net:Learning Fully Transformer Networks for Change Detection of
Remote Sensing Images [64.63004710817239]
リモートセンシング画像CDのためのトランスフォーマーベース学習フレームワークTransY-Netを提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの光学式および2つのSAR画像CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-22T07:42:19Z) - Feature Aggregation Network for Building Extraction from High-resolution
Remote Sensing Images [1.7623838912231695]
高解像度衛星リモートセンシングデータ取得は、表面構造的特徴の詳細な抽出の可能性を明らかにした。
現在の手法は、表面特徴の局所化情報にのみ焦点をあてている。
本稿では,グローバル機能とローカル機能の両方を抽出する機能集約ネットワーク(FANet)を提案する。
論文 参考訳(メタデータ) (2023-09-12T07:31:51Z) - CM-GAN: Image Inpainting with Cascaded Modulation GAN and Object-Aware
Training [112.96224800952724]
複雑な画像に大きな穴をあける際の可視像構造を生成するためのカスケード変調GAN(CM-GAN)を提案する。
各デコーダブロックにおいて、まず大域変調を適用し、粗い意味認識合成構造を行い、次に大域変調の出力に空間変調を適用し、空間適応的に特徴写像を更に調整する。
さらに,ネットワークがホール内の新たな物体を幻覚させるのを防ぐため,実世界のシナリオにおける物体除去タスクのニーズを満たすために,オブジェクト認識型トレーニングスキームを設計する。
論文 参考訳(メタデータ) (2022-03-22T16:13:27Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z) - Transformer Meets DCFAM: A Novel Semantic Segmentation Scheme for
Fine-Resolution Remote Sensing Images [6.171417925832851]
Swin Transformerをバックボーンとして導入し、コンテキスト情報を完全に抽出します。
また、高密度接続特徴集合モジュール(DCFAM)と呼ばれる新しいデコーダを設計し、解像度を復元し、セグメンテーションマップを生成する。
論文 参考訳(メタデータ) (2021-04-25T11:34:22Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z) - Designing and Training of A Dual CNN for Image Denoising [117.54244339673316]
クリーンなイメージを復元するためのDual denoising Network(DudeNet)を提案する。
DudeNetは4つのモジュールで構成されている。機能抽出ブロック、拡張ブロック、圧縮ブロック、再構築ブロックである。
論文 参考訳(メタデータ) (2020-07-08T08:16:24Z) - Image fusion using symmetric skip autoencodervia an Adversarial
Regulariser [6.584748347223698]
本稿では,より現実的な融合画像を生成するために,残差対向ネットワークによって正規化された残差自己エンコーダアーキテクチャを提案する。
残余モジュールはエンコーダ、デコーダ、および敵ネットワークの主要なビルディングとして機能する。
本稿では、融合画像と元の視覚画像の教師あり学習を行う対向正規化ネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-01T15:31:45Z) - Dual Convolutional LSTM Network for Referring Image Segmentation [18.181286443737417]
イメージセグメンテーションは、コンピュータビジョンと自然言語理解の共通点における問題である。
本稿では,この問題を解決するために,二重畳み込みLSTM(ConvLSTM)ネットワークを提案する。
論文 参考訳(メタデータ) (2020-01-30T20:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。