論文の概要: Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes
- arxiv url: http://arxiv.org/abs/2003.08736v2
- Date: Fri, 3 Apr 2020 12:27:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 15:16:46.887658
- Title: Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes
- Title(参考訳): 都市景観のリアルタイム高性能セマンティック画像分割
- Authors: Genshun Dong, Yan Yan, Chunhua Shen and Hanzi Wang
- Abstract要約: 都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
- 参考スコア(独自算出の注目度): 98.65457534223539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Convolutional Neural Networks (DCNNs) have recently shown outstanding
performance in semantic image segmentation. However, state-of-the-art
DCNN-based semantic segmentation methods usually suffer from high computational
complexity due to the use of complex network architectures. This greatly limits
their applications in the real-world scenarios that require real-time
processing. In this paper, we propose a real-time high-performance DCNN-based
method for robust semantic segmentation of urban street scenes, which achieves
a good trade-off between accuracy and speed. Specifically, a Lightweight
Baseline Network with Atrous convolution and Attention (LBN-AA) is firstly used
as our baseline network to efficiently obtain dense feature maps. Then, the
Distinctive Atrous Spatial Pyramid Pooling (DASPP), which exploits the
different sizes of pooling operations to encode the rich and distinctive
semantic information, is developed to detect objects at multiple scales.
Meanwhile, a Spatial detail-Preserving Network (SPN) with shallow convolutional
layers is designed to generate high-resolution feature maps preserving the
detailed spatial information. Finally, a simple but practical Feature Fusion
Network (FFN) is used to effectively combine both shallow and deep features
from the semantic branch (DASPP) and the spatial branch (SPN), respectively.
Extensive experimental results show that the proposed method respectively
achieves the accuracy of 73.6% and 68.0% mean Intersection over Union (mIoU)
with the inference speed of 51.0 fps and 39.3 fps on the challenging Cityscapes
and CamVid test datasets (by only using a single NVIDIA TITAN X card). This
demonstrates that the proposed method offers excellent performance at the
real-time speed for semantic segmentation of urban street scenes.
- Abstract(参考訳): 深層畳み込みニューラルネットワーク(DCNN)は近年,セマンティックイメージセグメンテーションにおいて優れた性能を示している。
しかし、最先端のdcnnベースのセマンティクスセグメンテーション手法は通常、複雑なネットワークアーキテクチャを使用するため、高い計算複雑性に苦しむ。
これにより、リアルタイム処理を必要とする現実世界のシナリオでのアプリケーションを大幅に制限します。
本稿では,都市街路シーンのロバストな意味セグメンテーションのためのリアルタイム高性能dcnnに基づく手法を提案する。
具体的には,Atrous convolution and Attention (LBN-AA) を用いた軽量ベースラインネットワークをベースラインネットワークとして利用し,高密度特徴写像を効率的に取得する。
次に、異なる大きさのプーリング操作を利用して、リッチで特徴的な意味情報をエンコードする識別的アトラス空間ピラミッドプーリング(daspp)を開発し、複数のスケールで物体を検出する。
一方、浅い畳み込み層を有する空間詳細保存ネットワーク(SPN)は、詳細な空間情報を保持する高解像度の特徴マップを生成するように設計されている。
最後に,意味枝(DASPP)と空間枝(SPN)の浅部特徴と深部特徴を効果的に組み合わせるために,簡易だが実用的な特徴融合ネットワーク(FFN)を用いる。
広範な実験結果から、提案手法は、挑戦的な都市景観とcamvidテストデータセット(nvidia titan xカード1枚のみを使用して)において、51.0 fpsと39.3 fpsの推論速度で、それぞれ73.6%の精度と68.0%の平均交点(miou)を達成した。
提案手法は,都市街路シーンのセマンティックセグメンテーションにおいて,リアルタイムに優れた性能を示すことを示す。
関連論文リスト
- SFNet: Faster and Accurate Semantic Segmentation via Semantic Flow [88.97790684009979]
性能を改善するための一般的な実践は、強力な意味表現を持つ高解像度の特徴写像を得ることである。
隣接レベルの特徴マップ間のテキストセマンティックフローを学習するためのフローアライメントモジュール(FAM)を提案する。
また,高分解能特徴写像と低分解能特徴写像を直接整列するGated Dual Flow Alignment Moduleを提案する。
論文 参考訳(メタデータ) (2022-07-10T08:25:47Z) - Deep Multi-Branch Aggregation Network for Real-Time Semantic
Segmentation in Street Scenes [32.54045305607654]
多くの最先端のリアルタイムセマンティックセグメンテーション手法は、空間的詳細や文脈情報を犠牲にして高速な推論を行う傾向にある。
街路シーンにおけるリアルタイムセマンティックセグメンテーションを実現するために,エンコーダ・デコーダ構造に基づく新しいディープ・マルチブランチ・アグリゲーション・ネットワーク(DMA-Net)を提案する。
提案したDMA-Netは,1個のNVIDIA GTX 1080Ti GPUのみを用いて,それぞれ46.7 FPSと119.8 FPSの予測速度で,平均77.0%,平均73.6%のUnion(mIoU)が得られる。
論文 参考訳(メタデータ) (2022-03-08T12:07:32Z) - Rethinking BiSeNet For Real-time Semantic Segmentation [6.622485130017622]
BiSeNetはリアルタイムセグメンテーションのための人気のある2ストリームネットワークであることが証明されている。
本稿では,stdc( short-term dense concatenate network)と呼ばれる新しい構造を提案する。
論文 参考訳(メタデータ) (2021-04-27T13:49:47Z) - Real-time Semantic Segmentation with Context Aggregation Network [14.560708848716754]
本稿では,2分岐畳み込みニューラルネットワークを提案する。
本研究では,2つのセマンティックセグメンテーションデータセット,すなわちCityscapesデータセットとUAVidデータセットについて評価を行った。
論文 参考訳(メタデータ) (2020-11-02T14:16:23Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z) - Real-time Semantic Segmentation via Spatial-detail Guided Context
Propagation [49.70144583431999]
本研究では,リアルタイムセマンティックセグメンテーションを実現するための空間詳細ガイド付きコンテキスト伝搬ネットワーク(SGCPNet)を提案する。
浅い層の空間的詳細を利用して低解像度のグローバルコンテキストの伝播を誘導し、失われた空間情報を効果的に再構成することができる。
69.5%のmIoUセグメンテーション精度を実現し、GeForce GTX 1080 Tiの768x1536イメージ上で178.5 FPSに達する。
論文 参考訳(メタデータ) (2020-05-22T07:07:26Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。