論文の概要: BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time
Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2004.02147v1
- Date: Sun, 5 Apr 2020 10:26:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 13:02:09.058928
- Title: BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time
Semantic Segmentation
- Title(参考訳): bisenet v2:リアルタイム意味セマンティクスセグメンテーションのためのアグリゲーション付きバイラテラルネットワーク
- Authors: Changqian Yu, Changxin Gao, Jingbo Wang, Gang Yu, Chunhua Shen, Nong
Sang
- Abstract要約: バイラテラル空間ネットワーク(BiSeNet V2)と呼ばれる,速度と精度のトレードオフが良好である効率的なアーキテクチャを提案する。
2,048x1の入力に対して、我々はCityscapesテストセットで72.6%の平均IoUを1つのNVIDIA GeForce 1080 Tiカードで156 FPSで達成した。
- 参考スコア(独自算出の注目度): 118.46210049742993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The low-level details and high-level semantics are both essential to the
semantic segmentation task. However, to speed up the model inference, current
approaches almost always sacrifice the low-level details, which leads to a
considerable accuracy decrease. We propose to treat these spatial details and
categorical semantics separately to achieve high accuracy and high efficiency
for realtime semantic segmentation. To this end, we propose an efficient and
effective architecture with a good trade-off between speed and accuracy, termed
Bilateral Segmentation Network (BiSeNet V2). This architecture involves: (i) a
Detail Branch, with wide channels and shallow layers to capture low-level
details and generate high-resolution feature representation; (ii) a Semantic
Branch, with narrow channels and deep layers to obtain high-level semantic
context. The Semantic Branch is lightweight due to reducing the channel
capacity and a fast-downsampling strategy. Furthermore, we design a Guided
Aggregation Layer to enhance mutual connections and fuse both types of feature
representation. Besides, a booster training strategy is designed to improve the
segmentation performance without any extra inference cost. Extensive
quantitative and qualitative evaluations demonstrate that the proposed
architecture performs favourably against a few state-of-the-art real-time
semantic segmentation approaches. Specifically, for a 2,048x1,024 input, we
achieve 72.6% Mean IoU on the Cityscapes test set with a speed of 156 FPS on
one NVIDIA GeForce GTX 1080 Ti card, which is significantly faster than
existing methods, yet we achieve better segmentation accuracy.
- Abstract(参考訳): 低レベルの詳細と高レベルのセマンティクスはどちらもセマンティクスセグメンテーションタスクに不可欠である。
しかし、モデル推論を高速化するために、現在のアプローチはほとんど常に低レベルの詳細を犠牲にしている。
本稿では,これらの空間的詳細と分類的意味論を個別に扱い,リアルタイムなセマンティックセグメンテーションのための高精度かつ高効率なセマンティックセグメンテーションを実現することを提案する。
この目的のために,バイラテラルセグメンテーションネットワーク (BiSeNet V2) と呼ばれる,速度と精度のトレードオフの良い効率的かつ効率的なアーキテクチャを提案する。
このアーキテクチャは:
(i)低レベルな細部をキャプチャし、高分解能な特徴表現を生成するために、幅の広いチャネルと浅い層を備えた細部ブランチ
(ii) 細いチャネルと深い層を持つセマンティックブランチで、高いレベルのセマンティックコンテキストを得る。
セマンティクスブランチは、チャネル容量の削減と高速ダウンサンプリング戦略のために軽量である。
さらに,相互接続性を高め,両タイプの特徴表現を融合させるガイドアグリゲーション層を設計する。
さらに、余分な推論コストを伴わずにセグメンテーション性能を向上させるためにブースタートレーニング戦略が設計されている。
広範な量的・質的評価は、提案されたアーキテクチャがいくつかの最先端のリアルタイムセマンティクスセグメンテーションアプローチに対して好適に機能することを示している。
具体的には、2,048x1,024の入力に対して、Cityscapesテストセットで72.6%のMean IoUを、NVIDIA GeForce GTX 1080 Tiカードで156 FPSの速度で達成します。
関連論文リスト
- Cross-CBAM: A Lightweight network for Scene Segmentation [2.064612766965483]
リアルタイムセマンティックセグメンテーションのための新しい軽量ネットワークであるCross-CBAMネットワークを提案する。
CityscapesデータセットとCamvidデータセットの実験では、73.4% mIoU、240.9FPS、77.2% mIoU、NVIDIA GTX 1080Tiで88.6FPSを達成した。
論文 参考訳(メタデータ) (2023-06-04T09:03:05Z) - RTFormer: Efficient Design for Real-Time Semantic Segmentation with
Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。
CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。
主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文 参考訳(メタデータ) (2022-10-13T16:03:53Z) - Rethinking BiSeNet For Real-time Semantic Segmentation [6.622485130017622]
BiSeNetはリアルタイムセグメンテーションのための人気のある2ストリームネットワークであることが証明されている。
本稿では,stdc( short-term dense concatenate network)と呼ばれる新しい構造を提案する。
論文 参考訳(メタデータ) (2021-04-27T13:49:47Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z) - Real-time Semantic Segmentation with Context Aggregation Network [14.560708848716754]
本稿では,2分岐畳み込みニューラルネットワークを提案する。
本研究では,2つのセマンティックセグメンテーションデータセット,すなわちCityscapesデータセットとUAVidデータセットについて評価を行った。
論文 参考訳(メタデータ) (2020-11-02T14:16:23Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z) - Real-time Semantic Segmentation via Spatial-detail Guided Context
Propagation [49.70144583431999]
本研究では,リアルタイムセマンティックセグメンテーションを実現するための空間詳細ガイド付きコンテキスト伝搬ネットワーク(SGCPNet)を提案する。
浅い層の空間的詳細を利用して低解像度のグローバルコンテキストの伝播を誘導し、失われた空間情報を効果的に再構成することができる。
69.5%のmIoUセグメンテーション精度を実現し、GeForce GTX 1080 Tiの768x1536イメージ上で178.5 FPSに達する。
論文 参考訳(メタデータ) (2020-05-22T07:07:26Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。