論文の概要: Deep Multi-Branch Aggregation Network for Real-Time Semantic
Segmentation in Street Scenes
- arxiv url: http://arxiv.org/abs/2203.04037v1
- Date: Tue, 8 Mar 2022 12:07:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 14:52:27.561486
- Title: Deep Multi-Branch Aggregation Network for Real-Time Semantic
Segmentation in Street Scenes
- Title(参考訳): ストリートシーンにおけるリアルタイム意味セマンティクスセグメンテーションのためのディープマルチブランチアグリゲーションネットワーク
- Authors: Xi Weng, Yan Yan, Genshun Dong, Chang Shu, Biao Wang, Hanzi Wang, Ji
Zhang
- Abstract要約: 多くの最先端のリアルタイムセマンティックセグメンテーション手法は、空間的詳細や文脈情報を犠牲にして高速な推論を行う傾向にある。
街路シーンにおけるリアルタイムセマンティックセグメンテーションを実現するために,エンコーダ・デコーダ構造に基づく新しいディープ・マルチブランチ・アグリゲーション・ネットワーク(DMA-Net)を提案する。
提案したDMA-Netは,1個のNVIDIA GTX 1080Ti GPUのみを用いて,それぞれ46.7 FPSと119.8 FPSの予測速度で,平均77.0%,平均73.6%のUnion(mIoU)が得られる。
- 参考スコア(独自算出の注目度): 32.54045305607654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time semantic segmentation, which aims to achieve high segmentation
accuracy at real-time inference speed, has received substantial attention over
the past few years. However, many state-of-the-art real-time semantic
segmentation methods tend to sacrifice some spatial details or contextual
information for fast inference, thus leading to degradation in segmentation
quality. In this paper, we propose a novel Deep Multi-branch Aggregation
Network (called DMA-Net) based on the encoder-decoder structure to perform
real-time semantic segmentation in street scenes. Specifically, we first adopt
ResNet-18 as the encoder to efficiently generate various levels of feature maps
from different stages of convolutions. Then, we develop a Multi-branch
Aggregation Network (MAN) as the decoder to effectively aggregate different
levels of feature maps and capture the multi-scale information. In MAN, a
lattice enhanced residual block is designed to enhance feature representations
of the network by taking advantage of the lattice structure. Meanwhile, a
feature transformation block is introduced to explicitly transform the feature
map from the neighboring branch before feature aggregation. Moreover, a global
context block is used to exploit the global contextual information. These key
components are tightly combined and jointly optimized in a unified network.
Extensive experimental results on the challenging Cityscapes and CamVid
datasets demonstrate that our proposed DMA-Net respectively obtains 77.0% and
73.6% mean Intersection over Union (mIoU) at the inference speed of 46.7 FPS
and 119.8 FPS by only using a single NVIDIA GTX 1080Ti GPU. This shows that
DMA-Net provides a good tradeoff between segmentation quality and speed for
semantic segmentation in street scenes.
- Abstract(参考訳): リアルタイムセマンティクスセグメンテーション(semantic segmentation)は、リアルタイムな推論速度で高いセグメンテーション精度を達成することを目的としている。
しかしながら、最先端のリアルタイムセマンティクスセグメンテーション手法の多くは、高速な推論のために空間的詳細や文脈情報を犠牲にする傾向があるため、セグメンテーションの品質が低下する。
本稿では,エンコーダ・デコーダ構造に基づく新しいディープ・マルチブランチ・アグリゲーション・ネットワーク(DMA-Net)を提案する。
具体的には、まずResNet-18をエンコーダとして採用し、コンボリューションの異なる段階から様々なレベルの特徴マップを効率的に生成する。
次に,マルチブランチアグリゲーションネットワーク(man)をデコーダとして開発し,機能マップの異なるレベルを効果的に集約し,マルチスケール情報をキャプチャする。
MANでは、格子構造を利用してネットワークの特徴表現を強化するために、格子強化残差ブロックを設計する。
一方、フィーチャーアグリゲーションの前に隣接するブランチからフィーチャーマップを明示的に変換するために、フィーチャートランスフォーメーションブロックが導入される。
さらに、グローバルコンテキスト情報を利用するためにグローバルコンテキストブロックが使用される。
これらのキーコンポーネントは密結合され、統合ネットワーク内で協調的に最適化される。
CityscapesとCamVidデータセットの大規模な実験結果から、提案したDMA-Netは、単一のNVIDIA GTX 1080Ti GPUのみを用いることで、46.7 FPSと119.8 FPSの推論速度で、それぞれ77.0%と73.6%の平均的Union(mIoU)が得られることが示された。
これはdma-netがストリートシーンにおけるセグメンテーションの品質とセグメンテーションのスピードとの間に良いトレードオフをもたらすことを示している。
関連論文リスト
- SegNetr: Rethinking the local-global interactions and skip connections
in U-shaped networks [1.121518046252855]
U字型ネットワークは、シンプルで調整が容易な構造のため、医療画像セグメンテーションの分野を支配してきた。
我々は任意の段階で動的に局所的・局所的相互作用を行なえる新しいSegNetrブロックを導入する。
59%と76%のパラメータとGFLOPがバニラU-Netより少ない4つの主流医療画像セグメンテーションデータセットに対するSegNetrの有効性を検証した。
論文 参考訳(メタデータ) (2023-07-06T12:39:06Z) - Cross-CBAM: A Lightweight network for Scene Segmentation [2.064612766965483]
リアルタイムセマンティックセグメンテーションのための新しい軽量ネットワークであるCross-CBAMネットワークを提案する。
CityscapesデータセットとCamvidデータセットの実験では、73.4% mIoU、240.9FPS、77.2% mIoU、NVIDIA GTX 1080Tiで88.6FPSを達成した。
論文 参考訳(メタデータ) (2023-06-04T09:03:05Z) - Stage-Aware Feature Alignment Network for Real-Time Semantic
Segmentation of Street Scenes [59.81228011432776]
街路シーンのリアルタイムなセマンティックセグメンテーションのためのSFANet(Stage-Aware Feature Alignment Network)を提案する。
デコーダにおける各ステージのユニークな役割を考慮に入れ、新しいステージ認識機能拡張ブロック(FEB)は、エンコーダからの特徴マップの空間的詳細と文脈的情報を強化するように設計されている。
実験の結果,提案したSFANetは,ストリートシーンのリアルタイムセマンティックセグメンテーションにおける精度と速度のバランスが良好であることがわかった。
論文 参考訳(メタデータ) (2022-03-08T11:46:41Z) - Rethinking BiSeNet For Real-time Semantic Segmentation [6.622485130017622]
BiSeNetはリアルタイムセグメンテーションのための人気のある2ストリームネットワークであることが証明されている。
本稿では,stdc( short-term dense concatenate network)と呼ばれる新しい構造を提案する。
論文 参考訳(メタデータ) (2021-04-27T13:49:47Z) - HyperSeg: Patch-wise Hypernetwork for Real-time Semantic Segmentation [95.47168925127089]
本稿では,エンコーダがデコーダのパラメータ(重み)をエンコードして生成する,新しいリアルタイムセマンティックセグメンテーションネットワークを提案する。
我々は、より高レベルなコンテキスト特徴を描画するためのネストされたU-Netからなる新しいタイプのハイパーネットワークを設計する。
論文 参考訳(メタデータ) (2020-12-21T18:58:18Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z) - BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time
Semantic Segmentation [118.46210049742993]
バイラテラル空間ネットワーク(BiSeNet V2)と呼ばれる,速度と精度のトレードオフが良好である効率的なアーキテクチャを提案する。
2,048x1の入力に対して、我々はCityscapesテストセットで72.6%の平均IoUを1つのNVIDIA GeForce 1080 Tiカードで156 FPSで達成した。
論文 参考訳(メタデータ) (2020-04-05T10:26:38Z) - Temporally Distributed Networks for Fast Video Semantic Segmentation [64.5330491940425]
TDNetは、高速かつ正確なビデオセマンティックセグメンテーションのために設計された時間分散ネットワークである。
我々は,深層CNNの特定の高層層から抽出した特徴を,より浅いサブネットワークから抽出した特徴の合成により近似することができることを観察した。
Cityscapes, CamVid, NYUD-v2 の実験により,本手法が高速かつ低レイテンシで最先端の精度を実現することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:43:32Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。