論文の概要: FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution
- arxiv url: http://arxiv.org/abs/2003.03913v1
- Date: Mon, 9 Mar 2020 03:53:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 09:17:40.811111
- Title: FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution
- Title(参考訳): farsee-net: 効率的なマルチスケールコンテキストアグリゲーションと特徴空間超解像によるリアルタイム意味セグメンテーション
- Authors: Zhanpeng Zhang and Kaipeng Zhang
- Abstract要約: Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
- 参考スコア(独自算出の注目度): 14.226301825772174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time semantic segmentation is desirable in many robotic applications
with limited computation resources. One challenge of semantic segmentation is
to deal with the object scale variations and leverage the context. How to
perform multi-scale context aggregation within limited computation budget is
important. In this paper, firstly, we introduce a novel and efficient module
called Cascaded Factorized Atrous Spatial Pyramid Pooling (CF-ASPP). It is a
lightweight cascaded structure for Convolutional Neural Networks (CNNs) to
efficiently leverage context information. On the other hand, for runtime
efficiency, state-of-the-art methods will quickly decrease the spatial size of
the inputs or feature maps in the early network stages. The final
high-resolution result is usually obtained by non-parametric up-sampling
operation (e.g. bilinear interpolation). Differently, we rethink this pipeline
and treat it as a super-resolution process. We use optimized super-resolution
operation in the up-sampling step and improve the accuracy, especially in
sub-sampled input image scenario for real-time applications. By fusing the
above two improvements, our methods provide better latency-accuracy trade-off
than the other state-of-the-art methods. In particular, we achieve 68.4% mIoU
at 84 fps on the Cityscapes test set with a single Nivida Titan X (Maxwell) GPU
card. The proposed module can be plugged into any feature extraction CNN and
benefits from the CNN structure development.
- Abstract(参考訳): リアルタイムセマンティクスセグメンテーションは、限られた計算リソースを持つ多くのロボットアプリケーションで望ましい。
セマンティックセグメンテーションの課題のひとつは、オブジェクトスケールのバリエーションに対処し、コンテキストを活用することだ。
限られた計算予算内でのマルチスケールコンテキストアグリゲーションの実行方法が重要である。
本稿では,まず,Cascaded Factorized Atrous Spatial Pyramid Pooling (CF-ASPP) と呼ばれる,新規で効率的なモジュールを紹介する。
畳み込みニューラルネットワーク(cnns)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
一方、ランタイム効率では、最先端のメソッドは、初期のネットワークステージにおいて、入力やフィーチャーマップの空間サイズを迅速に減少させる。
最終的な高分解能は、通常ノンパラメトリックアップサンプリング演算(例えば双線型補間)によって得られる。
異なるのは、パイプラインを再考し、超解像度プロセスとして扱うことです。
超解像処理をアップサンプリングステップで最適化し、特にリアルタイムアプリケーションのためのサブサンプリング入力画像シナリオにおいて精度を向上させる。
上記の2つの改善を融合することにより,本手法は他の最先端手法よりも高いレイテンシ精度のトレードオフを実現する。
特に,1枚のNivida Titan X (Maxwell) GPUカードを用いたCityscapesテストセットにおいて,68.4% mIoUを84fpsで達成した。
提案モジュールは任意の機能抽出CNNにプラグインすることができ、CNN構造開発の恩恵を受けることができる。
関連論文リスト
- Spatially-Adaptive Feature Modulation for Efficient Image
Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。
提案法は最先端のSR法よりも3倍程度小さい。
論文 参考訳(メタデータ) (2023-02-27T14:19:31Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - Efficient Latency-Aware CNN Depth Compression via Two-Stage Dynamic
Programming [15.458305667190256]
本稿では,一般的な畳み込み操作を対象とする新しい深度圧縮アルゴリズムを提案する。
ImageNetのMobileNetV2-1.0では、0.11%の精度で1.41タイムのスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-01-28T13:08:54Z) - DWRSeg: Rethinking Efficient Acquisition of Multi-scale Contextual
Information for Real-time Semantic Segmentation [10.379708894083217]
本研究では,元の単一ステップ法を2段階に分割し,高効率なマルチスケール特徴抽出手法を提案する。
NVIDIA GeForce GTX 1080 TiカードのCityscapesテストセットの72.7%のmIoUを319.5 FPSで達成し、69.5 FPSと0.8% mIoUの最新の手法を超える。
論文 参考訳(メタデータ) (2022-12-02T13:55:41Z) - RTFormer: Efficient Design for Real-Time Semantic Segmentation with
Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。
CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。
主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文 参考訳(メタデータ) (2022-10-13T16:03:53Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。