論文の概要: Rethinking BiSeNet For Real-time Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2104.13188v1
- Date: Tue, 27 Apr 2021 13:49:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-28 17:41:22.116447
- Title: Rethinking BiSeNet For Real-time Semantic Segmentation
- Title(参考訳): BiSeNetをリアルタイムセマンティックセグメンテーションに再考
- Authors: Mingyuan Fan, Shenqi Lai, Junshi Huang, Xiaoming Wei, Zhenhua Chai,
Junfeng Luo, Xiaolin Wei
- Abstract要約: BiSeNetはリアルタイムセグメンテーションのための人気のある2ストリームネットワークであることが証明されている。
本稿では,stdc( short-term dense concatenate network)と呼ばれる新しい構造を提案する。
- 参考スコア(独自算出の注目度): 6.622485130017622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: BiSeNet has been proved to be a popular two-stream network for real-time
segmentation. However, its principle of adding an extra path to encode spatial
information is time-consuming, and the backbones borrowed from pretrained
tasks, e.g., image classification, may be inefficient for image segmentation
due to the deficiency of task-specific design. To handle these problems, we
propose a novel and efficient structure named Short-Term Dense Concatenate
network (STDC network) by removing structure redundancy. Specifically, we
gradually reduce the dimension of feature maps and use the aggregation of them
for image representation, which forms the basic module of STDC network. In the
decoder, we propose a Detail Aggregation module by integrating the learning of
spatial information into low-level layers in single-stream manner. Finally, the
low-level features and deep features are fused to predict the final
segmentation results. Extensive experiments on Cityscapes and CamVid dataset
demonstrate the effectiveness of our method by achieving promising trade-off
between segmentation accuracy and inference speed. On Cityscapes, we achieve
71.9% mIoU on the test set with a speed of 250.4 FPS on NVIDIA GTX 1080Ti,
which is 45.2% faster than the latest methods, and achieve 76.8% mIoU with 97.0
FPS while inferring on higher resolution images.
- Abstract(参考訳): BiSeNetはリアルタイムセグメンテーションのための人気のある2ストリームネットワークであることが証明されている。
しかし、空間情報をエンコードするための余分なパスを追加するという原則は時間がかかり、事前訓練されたタスク、例えば画像分類から借用されたバックボーンは、タスク固有の設計の欠如のために画像分割に非効率である可能性がある。
これらの問題に対処するため,構造冗長性を取り除き,短時間Dense Concatenate Network (STDC Network) を新たに提案する。
具体的には,機能マップの次元を徐々に削減し,stdcネットワークの基本モジュールを構成する画像表現にそれらの集合を用いる。
このデコーダでは,空間情報の学習を低レベル層に単一ストリームで統合することで,Detail Aggregationモジュールを提案する。
最後に、最終セグメンテーション結果を予測するために、低レベルの特徴と深い特徴が融合される。
都市景観とcamvidデータセットに関する広範囲な実験により,セグメンテーション精度と推定速度のトレードオフを実現することにより,提案手法の有効性を実証した。
Cityscapesでは、最新の手法よりも45.2%高速なNVIDIA GTX 1080Tiで250.4 FPSの速度でテストセットで71.9% mIoUを獲得し、高解像度画像を推測しながら97.0 FPSで76.8% mIoUを達成した。
関連論文リスト
- Cross-CBAM: A Lightweight network for Scene Segmentation [2.064612766965483]
リアルタイムセマンティックセグメンテーションのための新しい軽量ネットワークであるCross-CBAMネットワークを提案する。
CityscapesデータセットとCamvidデータセットの実験では、73.4% mIoU、240.9FPS、77.2% mIoU、NVIDIA GTX 1080Tiで88.6FPSを達成した。
論文 参考訳(メタデータ) (2023-06-04T09:03:05Z) - Deep Multi-Branch Aggregation Network for Real-Time Semantic
Segmentation in Street Scenes [32.54045305607654]
多くの最先端のリアルタイムセマンティックセグメンテーション手法は、空間的詳細や文脈情報を犠牲にして高速な推論を行う傾向にある。
街路シーンにおけるリアルタイムセマンティックセグメンテーションを実現するために,エンコーダ・デコーダ構造に基づく新しいディープ・マルチブランチ・アグリゲーション・ネットワーク(DMA-Net)を提案する。
提案したDMA-Netは,1個のNVIDIA GTX 1080Ti GPUのみを用いて,それぞれ46.7 FPSと119.8 FPSの予測速度で,平均77.0%,平均73.6%のUnion(mIoU)が得られる。
論文 参考訳(メタデータ) (2022-03-08T12:07:32Z) - Stage-Aware Feature Alignment Network for Real-Time Semantic
Segmentation of Street Scenes [59.81228011432776]
街路シーンのリアルタイムなセマンティックセグメンテーションのためのSFANet(Stage-Aware Feature Alignment Network)を提案する。
デコーダにおける各ステージのユニークな役割を考慮に入れ、新しいステージ認識機能拡張ブロック(FEB)は、エンコーダからの特徴マップの空間的詳細と文脈的情報を強化するように設計されている。
実験の結果,提案したSFANetは,ストリートシーンのリアルタイムセマンティックセグメンテーションにおける精度と速度のバランスが良好であることがわかった。
論文 参考訳(メタデータ) (2022-03-08T11:46:41Z) - FBSNet: A Fast Bilateral Symmetrical Network for Real-Time Semantic
Segmentation [23.25851281719734]
リアルタイムセマンティックセグメンテーションのためのFBSNet(Fast Bilateral Symmetrical Network)を提案する。
FBSNetには対称デコーダ構造があり、2つの分岐、意味情報分岐、空間詳細分岐がある。
CityscapesとCamVidの実験結果から、提案したFBSNetは精度と効率のバランスが良いことを示している。
論文 参考訳(メタデータ) (2021-09-02T04:16:39Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z) - Real-time Semantic Segmentation via Spatial-detail Guided Context
Propagation [49.70144583431999]
本研究では,リアルタイムセマンティックセグメンテーションを実現するための空間詳細ガイド付きコンテキスト伝搬ネットワーク(SGCPNet)を提案する。
浅い層の空間的詳細を利用して低解像度のグローバルコンテキストの伝播を誘導し、失われた空間情報を効果的に再構成することができる。
69.5%のmIoUセグメンテーション精度を実現し、GeForce GTX 1080 Tiの768x1536イメージ上で178.5 FPSに達する。
論文 参考訳(メタデータ) (2020-05-22T07:07:26Z) - BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time
Semantic Segmentation [118.46210049742993]
バイラテラル空間ネットワーク(BiSeNet V2)と呼ばれる,速度と精度のトレードオフが良好である効率的なアーキテクチャを提案する。
2,048x1の入力に対して、我々はCityscapesテストセットで72.6%の平均IoUを1つのNVIDIA GeForce 1080 Tiカードで156 FPSで達成した。
論文 参考訳(メタデータ) (2020-04-05T10:26:38Z) - Temporally Distributed Networks for Fast Video Semantic Segmentation [64.5330491940425]
TDNetは、高速かつ正確なビデオセマンティックセグメンテーションのために設計された時間分散ネットワークである。
我々は,深層CNNの特定の高層層から抽出した特徴を,より浅いサブネットワークから抽出した特徴の合成により近似することができることを観察した。
Cityscapes, CamVid, NYUD-v2 の実験により,本手法が高速かつ低レイテンシで最先端の精度を実現することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:43:32Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。